项目 | 模块 | 具体内容 | 涉及技术 |
大数据Spark实战项目: 精准广告推送系统 DMP平台 | 广告行业现状 | 广告行业现状分析 | 传统广告和互联网广告投放优劣PK |
广告行业知识介绍 | 互联网广告的程序化采买概念 | ||
DSP业务需求详解 | SSP详解 | ||
AD Exchange详解 | |||
RTB实时竞价详解 | |||
DSP平台详解 | |||
DMP平台详解 | |||
项目背景 | 项目背景介绍 | DMP平台建设的必要性分析 | |
项目业务流程梳理 | DMP业务流程详解 | ||
项目技术架构分析 | DMP技术架构设计分析 | ||
日志采集 | 日志采集方案设计分析 | ||
日志格式 | 日志格式详解 | ||
项目数据采集 | Flume自定义插件详解 | Flume自定义插件开发流程详解及实际场景应用; source、channel、sink的使用详解及实战经验; Flume HDFS sink深入剖析及实战经验; 数据存储目录结构设计; | |
Flume组件使用详解 | |||
Flume采集日志到HDFS | |||
日志存储目录设计 | |||
数据存储技术选型 | parquet选型 | Paruqet存储原理详解 | |
Parquet优势分析 | Parquet存储优点详解 | ||
Parquet实战 | 日志文件转Parquet文件实战 | ||
离线业务 | 日志数据量分布统计 | Spark SQL实战 | |
广告投放效果地域分析 | Spark Transformations各算子在各业务模型中的实战应用; Spark Action的实战应用最佳实践经验; Spark SQL在项目数据分析业务场景中的各类复杂应用,如 如参与竞价数、竞价成功数、竞价成功率、ECPC、ECPM等。 | ||
广告投放效果渠道分析 | |||
广告投放效果终端分析 | |||
广告投放效果媒体分析 | |||
实时业务 | 广告日志到Kafka | 使用Spark Streaming结合Kafka对业务指标进行实时统计分析,并将计算的结果数据存储到Redis中 Kafka分区调优应用; Kafka整合Spark Streaming的数据可靠性优化实战; Kafka整合Spark Streaming的吞吐量协调优化实战; Spark Streaming在复杂业务模型下的逻辑开发实战; Spark Streaming线上环境各类复杂异常处理经验; Spark Streaming线上环境各类监控、JVM优化经验 | |
媒体数据实时分析 | |||
渠道数据实时分析 | |||
用户画像 | 标签体系建设 | 定制一套标签体系 | |
用户上下文标签 | 使用Spark Transformations、Action、Broadcast及外部爬虫抓到的网络数据进行处理分析将数据标签化 | ||
统一用户识别 | 使用Spark GraphX算法,对数据进行分析处理,识别出同一用户跨多个设备的问题 | ||
基于地理位置的广告投放 | 使用GEOHASH算法结合HBASE解决用户的地理位置识别问题 | ||
用户数据标签聚合 | 使用Spark Transformations、Action将上下文标签数据和统一用户数据进行合并 | ||
HBase存储用户标签 | 将合并的用户标签数据存储到Hbase中,并根据日志动态扩列 | ||
用户标签数据衰减 | 将Hbase中的标签数据按照日期自动衰减,形成当天最新的标签 | ||
数据可视化 | ElasticSearch | 使用Echarts、ELK将Hbase中的数据做可视化的web平台; Echarts实际应用实战技能; ELK实际应用实战技能; | |
Echarts | |||
标签可视化平台建设 |
欢迎光临 吾爱编程 (http://www.52pg.net/) | Powered by Discuz! X3.2 |