【基础】2016徐老师大数据之Spark视频教程 33课时 课程介绍: Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。课程讲的比较基础,适合边学边动手实践。 课程时长: 总共33课时,两个星期可以掌握。 适合学员: 需要一定的Hadoop、java、scala、linux基础。 课程目录: 01.Spark简介 00:03:19 02.Spark预编译版本下载安装与启动 00:15:49 03.Spark体验shell操作与wc操作与RDD介绍 00:20:40 04.Spark通过Maven进行源码编译安装 00:25:24 05.Spark搭建Maven本地仓库服务器 00:23:39 06.Spark通过本地Maven仓库服务器进行编译以及进行描述文件的设置 00:08:25 07.Spark官方doc的宏观描述和优势说明 00:10:29 08.Spark独立集群模式部署和启动 00:32:06 09.Spark Master和Worker的webui查看以及FIFO作业调度讲解 00:09:43 10.Spark独立集群模式端口修改 00:11:16 11.Spark shell应用于addFile 00:24:37 12.Spark程序build的宏观介绍 00:03:24 13.通过交互模式初始化Maven项目 00:11:10 14.通过参数指定方式直接初始化Maven项目 00:04:19 15.准备java源文件到自己的源码包中 00:04:43 16.设置pom.xml文件依赖插件以及与自由仓库目录树的对应关系 00:08:46 17.使用mvn package指令进行编译并进行打包与自由仓库目录树的对应关系 1 00:05:09 18.使用java指令添加spark类库运行Spark程序 00:05:21 19.使用maven的exec执行插件运行java程序 00:05:44 20.配置eclipse的maven插件使用本地maven仓库服务器 00:04:38 21.eclipse之下maven项目的配置编译运行 00:16:33 22.eclipse之Scala插件的卸载与安装 00:05:02 23.eclipse下构建Scala程序以及运行 00:02:45 24.通过Scalac命令手动编译scala程序并执行 00:13:16 25.命令行下通过maven编译运行Scala程序 00:10:15 26.eclipse下通过maven-scala插件进行Spark(Scala版)应用的开发 00:05:59 27.创建SparkContext简介与环境准备 00:04:59 28.使用Scala创建SparkContext对象以及conf配置和调试 00:11:32 29.使用Java创建SparkContext对象以及元数据介绍 00:11:30 30.使用Java创建Rdd对象并在eclipse运行 00:04:40 31.使用Scala创建Rdd对象并在eclipse调试分布式应用 00:17:09 32.addFile方法的使用与常见错误 00:21:53 33.flatMap函数处理csv文件进行扁平化RDD处理 00:21:01 课程下载:
|