本课程以Spark为项目主线,整合Redis和HBase打造以Spark技术栈为核心的离线处理项目以及实时处理项目,以功能实现为基础,并通过调优及重构功能实现,达到满足企业级生产的水平,带你在实战中进行Spark进阶。另外,课程最后讲解了Alluxio整合Hadoop和Spark的使用,以更好的拓展大家的视野

1-1课程介绍(11:26)

1-2***学前必读***(助你平稳踩坑,畅学无忧,课程学习与解决问题指南)

2-1课程目录(02:44)

2-2Redis概述(10:06)

2-3Redis特性(10:14)

2-4Redis应用场景(06:50)

2-5Redis部署&服务启停&客户端连接(17:09)

2-6Redis多数据库特性(07:04)

2-7Redis基础命令的使用(09:35)

2-8Redis数据类型之string(15:14)

2-9Redis数据类型之list(17:39)

2-10Redis基本数据类型之set(13:53)

2-11使用Jedis对Redis进行操作(09:55)

2-12Redis工具类开发(04:54)

3-1数据存储现状(07:26)

3-2HBase是什么(05:58)

3-3HBase在生态圈中的位置以及列式存储带来的好处(07:49)

3-4HBase的特点.mp4(05:23)

3-5HBasevsRDBMSvsHDFS.mp4(05:15)

3-6HBase的优势(02:58)

3-7HBase数据模型(09:47)

3-8JDK环境搭建(04:19)

3-9Hadoop环境部署(详解一个常见的错误解决方案)(14:41)

3-10ZooKeeper环境部署(03:32)

3-11HBase环境部署(09:01)

3-12HBaseshellDDL操作(06:28)

3-13HBaseshellDML操作(09:48)

3-14HBaseAPI编程之开发前置准备工作(10:31)

3-15HBaseAPI编程之创建表以及查询表和所有列族(07:32)

3-16HBaseAPI编程之添加和修改记录(07:41)

3-17HBaseAPI编程之通过RowKey获取值(05:47)

3-18HBaseAPI编程之Scan(08:39)

3-19HBaseAPI编程之Filter(06:09)

3-20HBaseAPI编程之总结(02:27)

4-1课程目录(03:03)

4-2项目背景(09:31)

4-3项目处理流程.mp4(11:03)

4-4项目离线和实时架构图(12:01)

4-5明确架构图中每个步骤使用的技术以及职责所在(06:32)

4-6项目指标需求(03:57)

4-7功能开发之UserAgent解析(掌握如何获取技能)(16:46)

4-8功能开发之IP解析思路(02:12)

4-9功能开发之Spark和HBase依赖整合(03:39)

4-10开发环境依赖使用说明(09:16)

4-11功能开发之解析日志成DataFrame并为DataFrame添加字段信息(08:32)

4-12功能开发之将DF内容转成HBase要存储的列(15:03)

4-13功能开发之整体ETL流程详解及如何传参设计(10:20)

4-14功能开发之创建HBase表(13:54)

4-15功能开发之HBaseRowkey设计_1(10:07)

4-16功能开发之完成ETL数据到HBase落地的全过程(09:10)

4-17功能开发之完成第一个指标的统计分析(19:10)

4-18功能开发之完成第二个指标的统计分析(03:33)

4-19性能优化之缓存的使用(04:13)

4-20功能开发之统计功能使用DataFrameAPI以及SQLAPI来完成(06:33)

4-21本章小结(02:29)

4-22【讨论题】关于SparkRDD核心算子的思考

5-1课程目录(02:15)

5-2SparkonYARN(12:02)

5-3Linux时间获取(04:13)

5-4shell封装Spark作业提交脚本(23:27)

5-5将统计结果写入到MySQL中(15:19)

5-6统计结果写入到MySQL调优(04:06)

5-7SparkETL到HBase优化之禁用WAL(18:29)

5-8SparkETL到HBase的HFile思路(03:49)

5-9Spark产生HFile文件格式准备工作(10:55)

5-10Spark产生HFile整个流程实现并总结(14:06)

5-11【讨论题】SparkOOM问题

6-1课程目录(01:58)

6-2项目背景(02:31)

6-3项目架构及处理流程(05:01)

6-4项目需求(02:43)

6-5开发环境准备及参数配置统一管理(11:46)

6-6Kafka部署及测试(05:45)

6-7Mock数据(08:34)

6-8发送数据到Kafka(12:56)

6-9SparkStreaming对接Kafka数据(06:18)

6-10功能实现之每天的粒度统计..1(15:54)

6-11功能开发之调优(04:36)

6-12功能实现小结(03:37)

6-13功能实现之每小时统计及代码重构(12:54)

6-14SparkStreaming对接Kafkaoffset管理(07:57)

6-15【讨论题】SparkStreaming对接Kafka数据在项

7-1课程目录(02:05)

7-2概述(08:41)

7-3Spark应用存在的问题分析(08:39)

7-4Alluxio能为我们带来什么(08:05)

7-5Alluxio特点(05:46)

7-6在Spark实战项目中引入Alluxio(07:28)

7-7Alluxio部署(11:29)

7-8Alluxio文件系统命令行操作(09:24)

7-9Alluxio整合HDFS使用(08:15)

7-10Alluxio整合MapReduce使用(08:07)

7-11Alluxio整合Spark使用(06:29)

7-12Alluxio案例分享之在百度的使用(11:36)

7-13Alluxio案例分享之在去哪儿的应用(11:52)

8-1课程目录(04:26)

8-2调优之资源设置(17:27)

8-3调优之算子的合理选择(09:47)

8-4扩展之自定义排序一(08:01)

8-5扩展之自定义排序二(附带经典面试题)(07:14)

8-6扩展之自定义排序(隐式转换)(04:27)

8-7SparkStreaming调优之Kafka限速(07:30)

8-8SparkStreaming对接Kafka能真正做到仅消费一次吗(03:29)

8-9调优之序列化(05:05)

8-10调优之广播变量(07:36)

8-11【讨论题】数据倾斜的思考

9-1DataPipeline_x264(06:19)

9-2ETL中可能会遇到的问题_x264(05:38)

9-3(打标记处,3处听不清楚)SparkSQLDataSourceAPI_x264(06:40)

9-4使用SparkSQL处理json数据_x264(10:26)

9-5基于SparkETL框架的设计(09:19)

9-6基于SparkETL框架的使用_x264(06:45)

10-1Spark概述(15:30)

10-2Spark3.x新特性(05:13)

10-3DataSourceAPIV2(09:51)

10-4动态分区裁剪(06:34)

10-5自适应查询执行(08:57)

10-6【讨论题】简历项目问题

独家号:慕课网

慕课网(IMOOC)是IT技能学习平台。慕课网(IMOOC)课程涉及JAVA、前端、Python、大数据等60类主流技术语言,覆盖了面试就业、职业成长、自我提升等需求场景,帮助用户实现从技能提升到岗位提升的能力闭环。

学习方式:在线播放或缓存下载