参会报名
课程介绍
课程大纲
讲师介绍
课程费用
邀请函下载

首页 > 商务会议 > IT互联网会议 > 刘刚培训公开课：Hadoop与Spark大数据架构专题（2017年2月上海站）更新时间：2017-06-24T15:45:40

收藏人

分享到

刘刚培训公开课：Hadoop与Spark大数据架构专题（2017年2月上海站）已过期
推荐参加：GOPS 全球运维大会 2025 · 深圳站暨研运数智化技术峰会

会议时间：2017-02-25 08:00至 2017-02-26 18:00结束

会议地点：上海详细地址会前通知

会议规模：暂无

主办单位：麦思博软件技术有限公司

发票类型：增值税普通发票增值税专用发票

行业热销热门关注看了又看换一换

课程介绍
课程信息主办方介绍

刘刚培训公开课：Hadoop与Spark大数据架构专题（2017年2月上海站）宣传图

培训特色

当下是大数据时代，为构建大数据平台，技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架，已经广为人知，且得到了广泛的应用，但MapReduce自身存在很多问题，包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下，不能很好地利用内存资源，编程复杂度较高等。为了克服MapReduce的众多问题，新型计算框架出现了。

目标收益

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程，涉及Spark、Hadoo系统基础知识，概念及架构， Spark、Hadoo实战技巧，Spark、Hadoo经典案例等。

通过本课程实践，帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识；理解Spark、Hadoo系统适用的场景；掌握Spark、Hadoo等初中级应用开发技能；搭建稳定可靠的Spar、Hadoo k集群，满足生产环境的标准；了解和清楚大数据应用的几个行业中的经典案例，包括阿里巴巴，华为等。

培训对象

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人，效果最佳。

学员基础

了解Linux系统及相关语言环境

课程时长

2天

麦思博软件技术有限公司

麦思博(msup)有限公司发源美国西雅图，2007年创办，是一家面向技术型组织的培训咨询机构，服务于技术团队的技能提升、软件工程的实际应用和产品品质的创新与超越。强调人员、技术、流程和管理的有机结合，注重角色岗位的技能提升与职业发展，以及技术团队复合管理与协作。每年超过1000家企业续单参与msup旗下公开课、工作坊、案例研究、国际游学等培训项目。

课程大纲

主题	内容
第一天上午 Spark生态介绍	 Mapreduce、storm和spark模型的比较和使用场景介绍  Spark产生背景  Spark（内存计算框架）  SparkSteaming（流式计算框架）  Spark SQL（ad-hoc）  Mllib（MachineLearning）  GraphX（bagel将被代）  DlinkDB介绍  SparkR介绍
Spark安装部署	 Spark安装简介  Spark的源码编译  Spark Standalone安装  Spark Standalone HA安装  Spark应用程序部署工具spark-submit
Spark运行架构和解析	 Spark的运行架构 • 基本术语 • 运行架构 • Spark on Standalone运行过程 • Spark on YARN 运行过程  Spark应用程序的配置  Spark运行实例解析 • Spark on Standalone实例解析 • Spark on YARN实例解析
第一天下午 Spark编程模型和解析	 python开发环境搭建  Spark的编程模型  Spark编程模型解析  Partition实现机制  RDD的特点、操作、依赖关系  Transformation RDD详解  Action RDD详解  Spark的累加器详解  Spark的广播变量详解  Spark容错机制 — lineage和checkpoint详解
文件读写操作	 Spark支持哪些文件的读写  Spark读Hive的数据  Spark读Json格式的数据  Spark读Hbase的数据
第二天上午 Spark应用优化	 partition优化详解  文件压缩格式(ORC、Parquet)  持久化类型选择  灵活使用Join操作  Spark配置参数的优化 RDD的优化
Spark Streaming原理和实践	 Spark Streaming原理 • Spark流式处理架构 • DStream的特点 • Dstream的操作和RDD的区别 • SatefulRDD和windowRDD实战 • Kafka+Spark Steaming实战 • Spark Streaming的优化  Kafka+Spark Streaming实例 • 文本实例  网络数据处理
第二天下午 Spark SQL原理和实践	 Spark SQL原理 • Spark SQL的Catalyst优化器 • Spark SQL内核 • Spark SQL和Hive  DataFrame和DataSet架构  Fataframe、DataSet和Spark SQL的比较  SparkSQL parquet格式实战  Spark SQL的实例和编程 • Spark SQL的实例操作demo  Spark SQL的编程
案例实战	 基于spark日志分析  Kafka+Spark Streaming实时计算实战  Spark SQL实战  Spark在大型互联网使用案例分享  大数据在大型银行的使用案例分享

讲师介绍

Spark大数据架构专题（2017年2月上海站）" src="http://pic.huodongjia.com/event/2017-06-24/1498290210.2.jpg"/>

Gavin.Liu 刘刚

Teradata

云平台系统架构师

毕业于大连理工大学，本科，有多年大数据分析类大型项目的架构实施经验，目前任职TD,先后服务于北京大学软件研究所、高德软件、阿里巴巴和Teradata，实施过基于Hadoop平台PageRank算法的实现、高德大数据中心的建设(300+的Hadoop集群开发、优化、运维和提供服务)、阿里巴巴OPDS大数据平台维护、内蒙移动大数据平台试点(Hadoop)、台湾远传Hadoop平台开发和优化、兰州银行大数据平台的架构和开发(Hadoop)、招商银行的大数据咨询规划和设施。在大数据架构、数据集成、数据挖掘/机器学习、实时推荐和营销方面有丰富经验，了解大数据在互联网的使用场景。

1）编写并出版《Hadoop应用开发技术详解》图书，销售10000+册——机械工业出版社(2014-01)

2）专利《海量数据基于记录级别的容错》

3）在infoQ和CSDN等技术论坛都有采访和发表过文章

4）2015 China hadoop summit 的特约演讲嘉宾

专业技能：

1）能熟练的运用Linux系统开发和shell编程,

2）精通java、熟悉python、R语言

3）熟悉struts、spring、hibernate开发

4）熟练运用mysql、oracle等关系型数据库，Cassendra、mongoDB、Redis等NoSql数据库

7）熟练运用flumeNG、scribe等日志收集工具

8）熟练运用ganglia和Nagios、openTSDB对hadoop集群进行监控

9）熟练运用storm、spark 分布式计算模型，spark Streaming、Mllib和graphx

10）精通MR的编程、Mahout、hbase、Oozie、Kafka、Impala、Tez、hive等应用

11）精通hadoop平台的搭建、优化、监控和其生态系统组件的使用。

12）熟悉openstack和docker虚拟化技术

认证：

国考——软件设计师(中级)—2009年

近期案例：

兰州银行，大数据平台，架构师，2014年

内蒙移动，大数据平台试点(Hadoop)，架构师，2014年

远传电信(台湾)，Hadoop平台优化解决方案和实施，架构师，2014年

招商银行大数据咨询项目规划和设施，架构师 2015年

交通银行大数据平台规划和设施，架构师 2015年

高德软件，高德集团大数据中心的建设、从15个Hadoop节点经过5次的扩容到300+节点，机房换了两个，负责Hadoop平台的开发、优化、运维和给兄弟部门提供服务等，Hadoop部门经理，2011.03 -2013.01年

阿里巴巴大数据高级架构师，负责OPDS平台架构、开发和运维 2013-2014.04年

课程费用
课程费用

课程费用：5800元/人

温馨提示
酒店与住宿: 为防止极端情况下活动延期或取消，建议“异地客户”与活动家客服确认参会信息后，再安排出行与住宿。
退款规则: 活动各项资源需提前采购，购票后不支持退款，可以换人参加。

标签：大数据架构电子商务 Spark Hadoop

您可能还会关注

GOPS 全球运维大会 2025 · 深圳站暨研运数智化技术峰会
2025-04-25 深圳
QCon北京2025|全球软件开发大会
2025-04-10 北京
GOPS 全球运维大会 2025 · 北京站暨研运数智化技术峰会
2025-06-27 北京
QCon上海2025|全球软件开发大会
2025-10-23 上海

活动家为本会议官方合作
报名平台，您可在线购票

会议支持：

会员折扣
该会议支持会员折扣
具体折扣标准请参见plus会员页面
会员返积分
每消费1元累积1个会员积分。
仅PC站支持。
会员积分抵现
根据会员等级的不同，每抵用1元可使用的积分也不一样，具体可参见PLUS会员页面。仅PC站支持。

部分参会单位

主办方没有公开参会单位

邮件提醒通知

刘刚培训公开课：Hadoop与Spark大数据架构专题（2017年2月 上海站）

刘刚培训公开课：Hadoop与Spark大数据架构专题（2017年2月 上海站） 已过期 推荐参加：GOPS 全球运维大会 2025 · 深圳站 暨研运数智化技术峰会

课程介绍 课程信息 主办方介绍

课程大纲

讲师介绍

课程费用 课程费用

您可能还会关注

录入信息

请先登录

刘刚培训公开课：Hadoop与Spark大数据架构专题（2017年2月上海站）

刘刚培训公开课：Hadoop与Spark大数据架构专题（2017年2月上海站）已过期
推荐参加：GOPS 全球运维大会 2025 · 深圳站暨研运数智化技术峰会

课程介绍
课程信息主办方介绍

课程费用
课程费用