admin 发表于 2018-6-13 18:19:54

《Spark 1.X 大数据平台V2》



第一周 Spark生态系统概述与编程模型

•    Spark生态系统概述

•    回顾Hadoop MapReduce

•    Spark运行模式

•    RDD

•    Spark运行时模型简介

•    缓存策略介绍

•    transformation

•    action

•    lineage

•    容错处理

•    宽依赖与窄依赖

•    集群配置



第二周 深入Spark内核

•    Spark术语解释

•    集群概览

•    核心组件

•    数据本地性

•    常用RDD

•    任务调度

•    DAGScheduler

•    TaskScheduler

•    Task细节

•    广播变量

•    累加器

•    性能调优



第三周 Spark on Yarn & Spark as a service

•    Spark on Yarn原理

•    Spark on Yarn实践

•    JobServer架构

•    JobServer API介绍

•    JobServer配置与部署



第四周 Spark Streaming原理与实践

•    DStream

•    数据源

•    无状态transformation与有状态transformation

•    checkpoint

•    容错

•    性能优化



第五周 Shark与Spark SQL

•    Shark数据模型

•    Shark数据类型

•    Shark架构

•    Shark部署

•    缓存(分区)表

•    SharkServer

•    Shark与Spark结合

•    Spark SQL架构

•    Parquet支持

•    DSL

•    SQL on RDD

•    Hive支持

•    UDF

•    JDBC Server



第六周 Machine Learning on Spark

•    LinearRegression

•    K-Means

•    Collaborative Filtering



第七周 Spark多语言编程

•    Python简介

•    PySpark API

•    使用Python编写Spark程序

•    Spark with Java



第八周 图计算GraphX

•    现存的图计算框架

•    Table Operators

•    Graph Operators

•    GraphX设计



第九周 Tachyon原理与实践

•    Tachyon原理与架构

•    Tachyon实践



第十周 SparkR

•    SparkR原理介绍

•    安装配置与运行


下载地址:
**** Hidden Message *****

chenl8820 发表于 2018-6-13 18:31:05

哥顶的不是帖子,是寂寞!

yodang2008 发表于 2018-6-13 22:05:21

看了LZ的帖子,我只想说一句很好很强大!

gaochao 发表于 2018-7-25 13:20:41

看帖看完了至少要顶一下,还可以加入到淘帖哦!支持吾爱编程网!
页: [1]
查看完整版本: 《Spark 1.X 大数据平台V2》