CCA Spark and Hadoop Developer (CCA175) 公开课
时间:2017-06-27 08:00 至 2017-06-30 18:00
地点:上海
- 参会报名
- 会议通知
- 会议日程
- 会议嘉宾
- 参会指南
- 邀请函下载
CCA Spark and Hadoop Developer (CCA175) 公开课 已过期会议时间:2017-06-27 08:00至 2017-06-30 18:00结束 会议规模:20人 主办单位: 上海碧茂信息科技有限公司
|
会议通知
会议内容 主办方介绍
CCA Spark and Hadoop Developer (CCA175) 公开课宣传图
课时:28h/4天
课程介绍
Hadoop 及生态系统介绍
• 传统大规模系统的问题
• Hadoop !
• Hadoop 生态系统
Hadoop 体系结构及 HDFS
• 机群环境下的分布式处理
• 存储:HDFS 体系结构
• 存储:使用 HDFS
• 资源管理:YARN 体系结构
• 资源管理:使用 YARN
使用 Apache Sqoop 导入关系数据
• Sqoop 简介
• 数据的基本导入导出
• 减少传输的数据量
• 改善 Sqoop 性能
• Sqoop 2
Impala 及 Hive 介绍
• 简介
• 为什么使用 Impala 及 Hive
• Hive 和传统数据库的比较
• Hive 应用场景
使用 Impala 及 Hive 管理数据及建模
• 数据存储
• 创建数据库及表
• 表数据导入
• HCatalog
• Impala 元数据缓存
数据格式
• 选择文件格式
• 支持不同文件格式的工具
• Avro 数据格式定义模式
• 在 Hive 及 Sqoop 里使用 Avro
• Avro 格式数据模式变更
• 压缩 数据分区
• 分区概述
• Impala 及 Hive 里的数据分区
Apache Flume 实时数据采集
• 什么是 Apache Flume
• Flume 基本体系结构
• Flume 源
• Flume 槽
• Flume 通道
• Flume 配置
Spark 基础
• 什么是 Apache Spark
• 使用 Spark Shell
• RDDs( 可恢复的分布式数据集)
• Spark 里的函数式编程 Spark RDD
• RDD
• 键值对 RDD
• MapReduce
• 其他键值对 RDD 操作
编写和部署 Spark 应用
• Spark 应用对比 Spark Shell
• 创建 SparkContext
• 创建 Spark 应用(Scala 和 Java)
• 运行 Spark 应用
• Spark 应用 WebUI
• 配置 Spark 属性
• 运行日志
Spark 的并行处理
• 回顾:机群环境里的 Spark
• RDD 分区
• 基于文件 RDD 的分区
• HDFS 和本地化数据
• 执行并行操作
• 执行阶段及任务
Spark 缓存和持久化
• RDD 演变
• 缓存
• 分布式持久化
Spark 数据处理的常见模式
• 常见 Spark 应用案例
• 迭代式算法
• 图处理及分析
• 机器学习
• 例子:K-Means 预览:Spark SQL
• Spark SQL 和 SQL Context
• 创建 DataFrames
• 变更及查询 DataFrames
• 保存 DataFrames
• Spark SQL 对比 Impala
查看更多
上海碧茂信息科技有限公司,是中国科学院上海计算技术研究所孵化企业,全球顶级大数据科技公司Cloudera中国区合作伙伴,专业大数据解决方案服务商。 公司成立于2011年,肩负推进中国科学院上海计算技术研究所项目成果产业化的使命,致力于中国企业,尤其是金融、政府、电信等行业的数字化转型战略。总部位于上海,并在北京、广州、长沙等地设有分支机构,形成了覆盖全国的服务体系。2015年成为Cloudera合作伙伴,提供基于Cloudera CDH、Hortonworks HDP、华为FusionInsight、星环 TDH等大数据平台的一体化技术支持,包括集群搭建、架构梳理、数据迁移、计算监测、系统改造、应用开发、数据治理、技术培训。 代表项目:黑龙江移动Hadoop平台第三方维护、中信证券上交所运维、武汉大学大数据实验室建设等。 累计培训大数据企业上百家、工程师逾千人。包括中国人民银行、上海市公安系统、中国移动、思科、浪潮、中兴通讯、东方国信、上海大数据联盟等。
会议日程 (最终日程以会议现场为准)
线上:长期开课
线下北京、上海定期开课
(最近一次培训时间:北京6月22-25日Cloudera Developer training for Spark and Hadoop(CCA-175) ,上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175))
查看更多
会议嘉宾 (最终出席嘉宾以会议现场为准)
Cloudera认证讲师
查看更多
参会指南
会议门票 场馆介绍
参会费:¥7360
查看更多
交通指南:轨道交通12号线宁国路站2号出口; 距轨道交通4号线、8号线10分钟车程; 公交站:长阳路临青路、黄兴路长阳路、宁国路河间路、长阳路宁武路; 公交线路:8、22、137、538、842、843、868、934、申川专线;
“长阳谷”又称上海市长阳谷五角场高新技术产业园、五角场高新技术产业园长阳谷基地,位于上海市杨浦区长阳路1687号(近黄兴路)。长阳谷一期规划总建筑面积约50000平方米,园区内有中心绿地约7000平方。整体呈现为院落式布局,由大小7幢建筑构成。园区交通便利,邻近内环,离地铁12号线车站(宁国路站)仅200米,周边有多个公交车站。 长阳谷创意产业园园区建筑可根据企业办公性质自由分割,有部分办公区域为loft结构,张弛有度;底层为园区配套商业,为园区企业提供便利服务。周边成熟的环境对本园区形成辐射,带动本区域的办公氛围。
温馨提示
酒店与住宿:
为防止极端情况下活动延期或取消,建议“异地客户”与活动家客服确认参会信息后,再安排出行与住宿。
退款规则:
活动各项资源需提前采购,购票后不支持退款,可以换人参加。
您可能还会关注
-
DAMS2024中国数据智能管理峰会(上海)
2024-11-29 上海
-
2024中国医药医疗CIO年会
2024-12-27 上海
-
2024PM产品力领航者大会
2025-05-16 上海
-
AiCon深圳2025|全球人工智能与大模型应用峰会
2025-08-22 深圳
报名平台,您可在线购票
会议支持:
-
会员折扣
该会议支持会员折扣
具体折扣标准请参见plus会员页面 -
会员返积分
每消费1元累积1个会员积分。
仅PC站支持。 -
会员积分抵现
根据会员等级的不同,每抵用1元可使用的积分也不一样,具体可参见PLUS会员页面。 仅PC站支持。
部分参会单位
邮件提醒通知