【基础】2016徐老师大数据之Spark视频教程 33课时
【基础】2016徐老师大数据之Spark视频教程 33课时课程介绍:Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。课程讲的比较基础,适合边学边动手实践。课程时长:总共33课时,两个星期可以掌握。适合学员:需要一定的Hadoop、java、scala、linux基础。课程目录:01.Spark简介 00:03:1902.Spark预编译版本下载安装与启动 00:15:4903.Spark体验shell操作与wc操作与RDD介绍 00:20:4004.Spark通过Maven进行源码编译安装 00:25:2405.Spark搭建Maven本地仓库服务器 00:23:3906.Spark通过本地Maven仓库服务器进行编译以及进行描述文件的设置 00:08:2507.Spark官方doc的宏观描述和优势说明 00:10:2908.Spark独立集群模式部署和启动 00:32:0609.Spark Master和Worker的webui查看以及FIFO作业调度讲解 00:09:4310.Spark独立集群模式端口修改 00:11:1611.Spark shell应用于addFile 00:24:3712.Spark程序build的宏观介绍 00:03:2413.通过交互模式初始化Maven项目 00:11:1014.通过参数指定方式直接初始化Maven项目 00:04:1915.准备java源文件到自己的源码包中 00:04:4316.设置pom.xml文件依赖插件以及与自由仓库目录树的对应关系 00:08:4617.使用mvn package指令进行编译并进行打包与自由仓库目录树的对应关系 1 00:05:0918.使用java指令添加spark类库运行Spark程序 00:05:2119.使用maven的exec执行插件运行java程序 00:05:4420.配置eclipse的maven插件使用本地maven仓库服务器 00:04:3821.eclipse之下maven项目的配置编译运行 00:16:3322.eclipse之Scala插件的卸载与安装 00:05:0223.eclipse下构建Scala程序以及运行 00:02:4524.通过Scalac命令手动编译scala程序并执行 00:13:1625.命令行下通过maven编译运行Scala程序 00:10:1526.eclipse下通过maven-scala插件进行Spark(Scala版)应用的开发 00:05:5927.创建SparkContext简介与环境准备 00:04:5928.使用Scala创建SparkContext对象以及conf配置和调试 00:11:3229.使用Java创建SparkContext对象以及元数据介绍 00:11:3030.使用Java创建Rdd对象并在eclipse运行 00:04:4031.使用Scala创建Rdd对象并在eclipse调试分布式应用 00:17:0932.addFile方法的使用与常见错误 00:21:5333.flatMap函数处理csv文件进行扁平化RDD处理 00:21:01课程下载:**** Hidden Message *****
页:
[1]