【基础】2016徐老师大数据之Spark视频教程 33课时
课程介绍:
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。课程讲的比较基础,适合边学边动手实践。
课程时长:
总共33课时,两个星期可以掌握。
适合学员:
需要一定的Hadoop、java、scala、linux基础。
课程目录:
01.Spark简介 00:03:19
02.Spark预编译版本下载安装与启动 00:15:49
03.Spark体验shell操作与wc操作与RDD介绍 00:20:40
04.Spark通过Maven进行源码编译安装 00:25:24
05.Spark搭建Maven本地仓库服务器 00:23:39
06.Spark通过本地Maven仓库服务器进行编译以及进行描述文件的设置 00:08:25
07.Spark官方doc的宏观描述和优势说明 00:10:29
08.Spark独立集群模式部署和启动 00:32:06
09.Spark Master和Worker的webui查看以及FIFO作业调度讲解 00:09:43
10.Spark独立集群模式端口修改 00:11:16
11.Spark shell应用于addFile 00:24:37
12.Spark程序build的宏观介绍 00:03:24
13.通过交互模式初始化Maven项目 00:11:10
14.通过参数指定方式直接初始化Maven项目 00:04:19
15.准备java源文件到自己的源码包中 00:04:43
16.设置pom.xml文件依赖插件以及与自由仓库目录树的对应关系 00:08:46
17.使用mvn package指令进行编译并进行打包与自由仓库目录树的对应关系 1 00:05:09
18.使用java指令添加spark类库运行Spark程序 00:05:21
19.使用maven的exec执行插件运行java程序 00:05:44
20.配置eclipse的maven插件使用本地maven仓库服务器 00:04:38
21.eclipse之下maven项目的配置编译运行 00:16:33
22.eclipse之Scala插件的卸载与安装 00:05:02
23.eclipse下构建Scala程序以及运行 00:02:45
24.通过Scalac命令手动编译scala程序并执行 00:13:16
25.命令行下通过maven编译运行Scala程序 00:10:15
26.eclipse下通过maven-scala插件进行Spark(Scala版)应用的开发 00:05:59
27.创建SparkContext简介与环境准备 00:04:59
28.使用Scala创建SparkContext对象以及conf配置和调试 00:11:32
29.使用Java创建SparkContext对象以及元数据介绍 00:11:30
30.使用Java创建Rdd对象并在eclipse运行 00:04:40
31.使用Scala创建Rdd对象并在eclipse调试分布式应用 00:17:09
32.addFile方法的使用与常见错误 00:21:53
33.flatMap函数处理csv文件进行扁平化RDD处理 00:21:01
课程下载:
欢迎光临 吾爱编程 (http://www.52pg.net/) | Powered by Discuz! X3.2 |