[百度网盘]十八掌徐培成倾力打造大数据开发

admin · admin 发表于 2019-3-17 20:02:06

【课程内容】

------------------大数据Java基础------------------

第一天

01.类型转换
02.归档分析与实现
03.解档程序
04.使用zipOuputStream压缩文件流
05.使用zipInputStream使用解压缩
06.多线程同步问题
07.多线程同步问题-线程死锁
08.集合-ArrayList-linkedList
09.IDE-eclipse环境处理

第二天

01.多线程和尚馒头问题
02.hashcode原理-hashmap-hashset
03.arrayList-linkedList-equals-hashcode
04.jvm栈溢出
06.jvm内部结构-jconsole-jvm虚拟机调参
07.jvm classloader类加载过程
08.tcp-ip-OSI七层协议-三次握手

第三天

01.udp发送和接受
02.屏广过程分析
03.屏广过程分析-教师端程序
04.屏广过程分析-学生端接受程序分析和实现
05.屏广-学生端UI实现-增加压缩机制
05.屏广-学生端UI实现-测试通过
06.QQ通信-分析程序
07.QQ通信-消息实现-消息工厂-消息类-消息解析-消息转换
08.QQ通信-消息转换-解析2

第四天

01.客户端解析服务器消息
02.客户端消息转换-流基础
03.客户端消息通信-退出刷新
04.私聊窗口实现-刷新好友列表

第五天

01.设计模式-oop部分
02.OOP-2
03.NIO-ByteBuffer-FileChannel
04.NIO-MappedFileBuffer-离堆内存
05.NIO-离堆内存回收
06.NIO-ServerSocketChannel-Selector-SocketChannel
07.NIO-SocketChannel
08.JDK动态代理

------------------大数据Linux基础------------------

第一天

01..vmware安装-centos安装
02..CentOS基本命令

第二天

01.centos命令基础
02.centos命令-文件类型-权限
03.centos网络连接模式-虚拟网络编辑
04.centos网路配置-域名解析-光驱挂载
05.centos虚拟机增强工具的安装-文本模式的安装

第三天

01.符号连接-sudoers
02.进程查看-主机名-dirname-basename-磁盘分区
03.hostname-hosts-useradd-userdel
04.nc
05.nc传输文件-centosmin安装

第四天

01.CentOS-yum源修改-yum命令
02.CentOS-iso文件制作
03.CentOS-min版虚拟机增强

------------------大数据离线计算-Hadoop------------------

第一天

01.大数据介绍
02.hadoop介绍-jdk安装
03.hadoop安装-配置(独立模式-伪分布)

第二天

01.伪分布式启动-fs格式化-webui
02.完全分布式-准备工作-虚拟机克隆
03.完全分布式-搭建
04.完全分布式-调错
05.完全分布式-编写脚本-xcall-xsync

第三天

01.脚本分析-单个进程启动
02.hdfs常用操作
03.hadoop基础-hdfs-block
04.hadoop API-网络拓扑

第四天

01.maven搭建
02.maven-idea
03.maven-idea-创建项目-模块
04.idea-快捷键设置-项目调整-maven设置
05.hadoop最小块设置-指定副本数
06.hadoop滚动日志-安全模式-保存名称空间
07.配额管理-空间配合-目录配额
08.快照管理-删除-创建-重命名-启用-禁用
09.节点的服役和退役
10.rose建模-虚拟光驱安装

第五天

01-hdfs写入剖析
02-2nn融合nn的镜像文件和编辑日志
03-MR介绍
04-MR编写以及运行原理
05-MR原理图剖析
06-MR集群模式部署-运行

第六天

01.Yarn作业提交过程
02.job的文件split计算法则
03.切片和recorderreader读取法则
04.压缩文件
05.程序打包-centos运行-远程调试
06.5pom中引入antrun插件-远程调试-snappy库centos安装
07.LZO压缩编解码配置与测试
08.seqfile文件结构-同步点-压缩类型
09.自定义分区-数据倾斜-combiner类

第七天

01.多输入问题
02.计数器使用-跟踪运行信息
03.hadoop全排序
04.hadoop全排序-采样器
05.hadoop二次排序-原理-实现
06.hadoop二次排序-编程实现-年份最高气温值提取

第八天

01.二次排序-链条化
02.数据倾斜-自定义分区-随机分配
03.链式处理map和reduce tasks
04.DBInputFormat-DBWritable-实现数据库读取内容
05.DBInputFormat-DBWritable-输出数据到数据库中

第九天

01.机架感知
02.机架感知实现-配置
03.手动移动块数据-HA介绍
04.hadoop-ha介绍-配置-原理
05.hadoop-ha-配置
06.hadoop-ha-配置总结

第十天

01.mysql-jdbc加强
02.mysql-jdbc加强-state-ppst
03.mysql-定义存储过程
04.jdbc通过callableStatement调用存储过程
05.jdbc通过callableStatement实现百万数据插入
06.jdbc通过CallableStatement数据库函数
07.jdbc事务处理并发现象-脏读-不可重复读-幻读
08.mysql并发现象-脏读设置与演示
09.mysql并发现象-不可重复设置与演示
10.mysql并发现象-serializable-悲观锁-查询时使用forupdate写锁
11.java编程展现隔离级别-连接查询处理-内连接-左右外链接-笛卡尔积
12.mysql查询语法构成-where-分组-having-orderby-limit
13.mysql嵌套子查询-分组-having-二次分组

第十一天

01.Hadoop实现join操作原理分析
02.MR Map端连接实现
03.MR Reduce端连接实现-组合key-分区类-mapper类
04.MR Reduce端连接实现-排序对比器-分组对比器-App

------------------大数据数据仓库Hive------------------

第一天

01.hive的安装-配置
02.hive基本操作-建库-建表
03.hive中使用hiveserver2和beeline命令采用jdbc协议访问
04.hive中使用API通过jdbc访问数据藏库
05.hive中分区表-添加-删除-加载-查询
06.hive中桶表-实现-操作

第二天

01.hive操作-排序
02.hive动态分区-严格模式-非严格模式
03.hive事务处理-聚合
04.hive实现单词统计-嵌套子查询-分组聚合-topN
05.hive实现单词统计-结果存储-事务性表处理
06.hive视图操作
07.hive调优-mr严格模式-map端连接-explain
08.JVM重用-MR数量限制-本地模式
09.HiveUDF函数
10.HiveUDF函数-注册函数-使用函数
11.HiveUDF函数-日期时间函数
12.HiveUDF-使用GenericUDF
13.HiveUDF-GenericUDF-date日期函数

第三天

01.hive的数据倾斜

------------------大数据序列号Avro和Protobuf------------------

01.protobuf串行化
02.protobuf和java对比
03.avro串行化-编译方式
04.avro串行化-编译方式-串行-反串行
05.avro串行化-非编译模式

------------------大数据协调服务Zookeeper------------------

第一天

01.zk介绍-相关概念
02.zk安装-配置-服务器启动
03.zk命令操作
04.zk API访问zk数据
05.zk递归方式输出zk系统目录
06.zk观察者模式-编程API使用-监控演示
07.zk的读写操作过程

第二天

01.leader推选法则
02.zk完全分布式集群配置
03.HA分布式自动容灾1
04.HA分布式自动容灾2-配置实现-容灾演示
05.RM的HA配置

------------------大数据数据库HBase------------------

第一天

01.Hbse介绍
02.Hbse完全分布式集群搭建
03..HA集群架构回顾

第二天

01.hbase HA
02.hbase shell基本操作
03.hbase API方式实现插入和查询
04.hbase 架构介绍
05.hbase写入过程剖析-百万数据插入测试
06.hbase表和区域的切割
07.hbase和hadoop HA集成配置
08.hbase手动移动区域
09.hbaseAPI访问hbase数据库-crud-scan-动态元数据访问

第三天

01.hbase预切割
02.hbase版本数据-检查时版本数指定
03.hbase版本TTL-原生扫描-KeepDeleteCells
04.hbase扫描器缓存-设置-测试
05.hbase扫描器批处理设置
06.hbase过滤器-row-family-col-value-dep
07.hbasePage过滤-复杂查询
08.hbase计数器
09.hbase协处理器

第四天

01.rowkey的设计原则
02.rowkey的Calllogs呼叫日志设计实现
03.CallLog日志数据put和协处理器实现
04.CallLog实现-测试
05.CallLog实现-查询通化详单
06.hbase的布隆过滤器
07.hbase的phonix
08.phonix客户端SQuirrel安装
09.SQuirrel使用-SQL语句-upsert-select-delete

第五天

01.Hive-Hbase集成,hive

------------------大数据日志采集Flume------------------

01.flume日志收集介绍与架构
02.flume-netcat source
03.flume-常用的source-exec-spooldir-seq-netcat
04.flume-hdfs sink
05.flume-hbase sink
06.flume-hdfs round-roller区别
07.flume-avro hop跃点
08.flume-channel-file-memory-spillatable

------------------分布式发布订阅消息系统Kafka------------------

01.JMS简介-kafka
02.kafka安装
03.kafka集群配置-启动-验证
04.kafka生产消费控制台配置演示
05.kafka分区-部分-再平衡
06.kafka手动分区再平衡-同步复制-异步复制
07.通过java API编程实现kafka消息生产者
08.通过java API编程实现kafka消息消费者
09.flume与kafka集成

------------------大数据实时处理Storm------------------

第一天

01.storm
02.storm和hadoop对别
03.storm优点
04.storm架构介绍-核心组件
05.storm安装
06.storm完全分布式集群部署和配置-webui查看
07.storm编程实现电话呼叫日志处理-本地模式执行
08.storm完全分布式集群运行top作业
09.storm集群logviewer查看器进程-日志目录
10.wordcount的storm实现
11.定义工具类，使用nc结合socket编程实现分布式程序的调试功能
12.调整任务的并发度和任务数-worker数-执行线程数

第二天

01.回顾
02.storm分组策略-shuffle-field-数据倾斜
03.storm分组策略-wordcount-二次聚合-数据倾斜
04.storm分组使用守护线程按时间片定时清分-集合同步问题
05.storm分组-all-direct-global
06.storm分组-none分组
07.storm分组log设置
08.storm分组-自定义分组
09.storm确保消息被消费
10.storm确保消息被消费-使用双队列方式实现
11.storm与kafka集成
12.storm与kafka集成-log4j注意事项
13.storm与hbase集成

第三天

01.storm与hbase集成

------------------大数据JavaWeb基础SSM------------------

SSM-mybatis

01.ssm简介
02.项目初始化
03.配置文件和数据库创建-表创建
04.使用API测试是否连通
05.创建mapper文件和javabean
06.实现insert操作
07.实现update操作
08.实现selectOne操作
09.实现selectAll操作
10.复杂关系-准备数据-表结构
11.复杂关系-设计java类
12.复杂关系-orderMapper映射文件
13.复杂关系-修改配置-插入关联数据
14.复杂关系-多对一关联查询
15.复杂关系-多对一映射编写
16.复杂关系-多对一API编程测试
17.项目改造-规范化-Dao-Util
18.项目改造-样板代码-接口回调实现封装
19.项目改造-接口回调原理图说明

spring整合mybatis

01.体验Spring
02.spring注解方式-扫描组件-依赖配置
03.spring整合mybatis原理图
04.项目初始化-连接数据源c3p0-测试
05.sf-dao设计实现
06.service接口和实现类设计
07.配置文件-事务通知-aop配置
08.rose图分析
09.调错
10.整合回顾
11.业务增加-item处理
12.事务管理原理介绍-现象展示

SpringMVC

01.web程序简介
02.搭建tomcat服务器
03.tomcat目录结构-端口修改-server.xml
04.在idea下创建web模块-配置tomcat-运行程序
05.在idea下配置tomcat服务器热部署
06.在idea添加maven支持-修改热部署-默认浏览器
07.bs结构程序的工作流程
08.Spring MVC结构
09.引入Springmvc依赖-配置servlet
10.spring注解驱动配置mvc-编写controller
11.IDEA下的weeb模块运行找不到第三方类库的解决办法
12.配置视图解析器-增加jsp页面-增加控制器方法
13.实现注册用户功能
14.获得表单提交数据-HttpServletRequest
15.Controller向jsp传递参数-Model
16.Controller向jsp传递集合数据进行显示
17.springMVC完成CRUD-forward-redirect
18.forward-redirect区别

SSM整合

01.项目初始化-maven依赖
02.整合架构-包结构分析
03.基本类库创建-service-dao-domain
04.控制器-spring配置文件-分发器配置文件
05.实现user查看-web.xml配置监听-beans加载mybatis文件
06.SpringMVC静态资源访问
07.引入css表
08.删除用户
09.中文乱码问题
10.分页查询
11.jsp页面参数获取
12.数据范围-session-application-request
13.数据范围-session登录处理-session数据保存

------------------大数据Scala基础------------------

第一天

01.Scala安装-体验scala语法
02.Scala操作符重载-apply方法
03.Scala C风格printf函数-readLine读行数据
04.Scalawhile循环99表格
05.for训话守卫条件和yield推导式
06.函数-带名函数-默认值-过程
07.数组-变长数组-转换
08.数组常用操作-sum-max-min-排序-mkdString
09.多维数组
10.类型自动转换
11.map-可变immutable-不可变mutable-迭代
12.tuple-zip操作
13.OOP-类-this关键字-var变量-val-get-set-主构造-辅助构造
14.OOP-对象-伴生对象
15.OOP-抽象类-方法覆盖
16.安装idea下的scala插件-创建scala模块-运行程序
17.scala包的导入-package object

第二天

01.扩展-类型检查-转换-类型树
02.文件和正则表达式-爬虫实现网页图片下载
03.爬虫实现原理-正则href解析
04.trait
05.操作符-apply-unapply
06.apply-unapply2
07.高阶函数-匿名函数
08.复杂高阶函数演示
09.高阶函数进化演示
10.柯里化-控制抽象
11.集合操作

第三天

1.模式匹配
2.样例类-密封样例类
3.偏函数
5.隐式转换-隐式参数值

------------------大数据实时计算Spark------------------

第一天

01.Spark介绍
02.安装Spark
03.使用Spark实现word count
04.Spark编程实现wordcount
05.Spark java版单词统计
06.Spark程序包找不到问题-配置idea下的全局库-在模块中指定全局库
07.部署spark完全分布式集群
08.spark脚本分析-进程管理

第二天

01.Scala文件的maven编译问题
02.核心API模块介绍
03.RDD弹性分布式数据集
04.RDD并发度-分区-变换
05.RDD变换-wordcount-count-reduce
06.RDD变换-groupByKey-join
07.RDD变换-cogroup
08.RDD变换-笛卡尔积
09.RDD变换-pipe
10.RDD Action-collect-count-countByKey-saveAs-foreach-take
11.RDD数据倾斜处理
12.Spark和hadoop HA整合-数据倾斜使用

第三天

01.spark运行代码解析-1
02.spark-dag调度器-task调度器-job-taskset-task
03.spark-activeJob-taskSchedulerImpl
04.spark作业提交-事件loop-调度器处理-***总线
05.spark作业提交-后台调度器-RpcEndpoint-消息发送-消息接受-最终代码调用

第四天

01.spark提交流程回顾
02.spark提交流程图形总结-宽窄依赖1
03.spark启动模式
04.spark持久化-shuffle
05.spark持久化-删除数据-丢失数据的恢复
06.spark累加器-广播变量
07.spark分布式计算PI值
08.Spark SQL模块

第五天

01.SparkSQL操纵json文件-read-write
02.SparkSQL使用jdbc操纵Mysql数据库
03.SparkSQL交互hive
04.SparkSQL交互hive-thriftserver
05.SparkSQL分布式SQL查询引擎
06.Spark Streaming流计算
07.Spark Streaming流计算JavaAPI编程实现-完全分布式提交作业
08.Spark Streaming流计算集群上提交演示
09.Spark Streaming DStream类考察-Receiver
10.Spark Streaming 和Kafka集成
11.Spark Streaming RDD-DStream-hadoop分区
12.Spark Streaming updateStateByKey状态更新

第六天

01.spark  streaming windows化操作
02.spark streaming容错处理
03.spark streaming容错代码测试-checkpoint-注意事项
04.spark机器学习-介绍-分类-聚类-推荐(协同过滤)
05.spark分类算法
06.spark机器学习-逻辑回归测试
07.spark机器学习-逻辑回归测试2
08.spark机器学习-分类-spamFilter

第七天

01.推荐算法
02.ALS最小二乘法实现推荐模型
03.ALS实现电影推荐
04.推荐model应用-商品推荐-用户推荐-topn推荐-all用户推荐
05.python体验
06.pythonwindows的安装
07.python基础-语句块
08.python基本数据类型
09.python运算符
10.python循环
11.python String
12.python文件访问

第八天

01.mysql集成python3.4-注意事项
02.mysql大数据量插入-查询-条件查询
03.python操纵mysql事务管理-自动提交模式
04.python操纵mysql 存储过程和函数
05.python操纵多线程-时间函数
06.python OOP
07.python多线程
08.python Socket编程
09.python Socket UDP编程
10.python 爬虫实现

第九天

01.python协同hbase实现数据写入
02.python编写wordcount
03.python编译hbase.thrift文件-实现put操作
04.python编译错误纠正-测试
05.python查询hbase scan-delete
06.python爬虫存储页面在hbase中-base64对url编码
07.python & spark实现数据分析-图表
08.python&spark实现数据分析-直方图-饼图-嵌套子图-条形图

第十天

01.商品价格抓取
02.Spark闭包处理-local-cluster模式下区别
03.SparkApp部署模式-client-cluster区分演示
04.Spark yarn集群运行模式
05.Spark yarn client模式运行
06.Spark yarn cluster模式运行-上传sparkjar到hdfs
07.Spark HA模式配置与测试
08.Spark hive集成

第十一天

01.sparkSQL集成hive访问hbase库-类库问题
02.sparkSQL idea编程实现spark对hbase数据的统计查询
03.sparkSQL同web项目集成
04.sparkSQL同web项目集成2
05.团购网站的标签生成应用-描述-数据结构
06.团购网站的标签生成应用-数据分析过程
07.团购网站的标签生成应用-java编程抽取json串中的评论
08.团购网站的标签生成应用-scala编程实现标签生成程序
09.用户画像概念
10.性别-年龄进行画像分析
11.性别-年龄进行用户画像MR代码分析与数据解析
12.性别-年龄进行用户画像第一阶段实现运行
13.性别-年龄进行用户画像算法实现
14.性别-年龄进行用户画像总结

------------------项目：电信电话项目（真实企业项目）------------------

第一天

01.通话记录系统架构分析
02.通话记录模拟生成程序
03.通话记录模拟生成程序生成jar部署到centos运行
04.部署数据生成程序到centos运行-编写执行脚本-生成测试数据
05.启动zk集群和kafka集群
06.创建kafka主题-并查看主体列表
07.创建flume配置文件-启动收集程序-F持续收集-从头收集
08.启动数据生成程序，查看数据收集状况
09.启动hadoop的hdfs集群-进行容灾切换-查看状态
10.启动hbase集群-双master节点做HA容灾处理-容器切换
11.创建hbase名字空间和表
12.编写HbaseDao实现数据的hbase写入-配置文件外部化-kafka消费者
13.编使用maven命令下载工件需要的所有第三方类库到指定目录下
14.导出消费者jar组织安装目录-编写运行脚本-执行程序
15.编写centos下的脚本-运行程序-查看消费数据
16.导入IDEA中其他模块到新项目中-调整配置
17.web项目集成-hbase数据查询展示

第二天

01.按照时间段查询通话记录
02.实现CallLogController查询页面和接受参数
03.编写jsp查询通话记录页面
04.查询时间段的通话记录分析
05.计算时间范围
06.实现范围时段查询
07.创建CallLog日志表的协处理器-完成被叫数据的保存
08.打包CallLog日志表的协处理器并进行部署-测试web程序
09.重写postGetOp方法，实现被叫查询返回主叫结果
10.web程序集成协处理器实现被叫查询返回主叫结果
11.重写CallLogRegionObserver的postScannerNext方法实现scan时数据的主被叫处理

第三天

01.启动yarn的集群-HA
02.启动hive-完成hive到hbase表映射-实现最近通话信息查询
03.SSM集成hive查询-交互与hiveserver2服务器-jdbc方式访问
04.SSM集成hive查询-修改pom依赖使用hive-jdbc-1.2.1依赖库
05.SSM集成hive-jdbc访问hiveser2时bug解决
06.通话记录增加名字信息
07.通话记录增加名字信息-准备数据
08.测试SSMWEB部分关联名字信息展示数据
09.修改物理内存和虚拟内存对MR的限制，否则Hive查询无法执行
10.使用Fastjson返回json的数据串-web集成ajax访问后台数据
11.集成jQuery库实现ajax访问-动态刷新通话记录
12.集成jQuery实现周期性刷新页面-javascript
13.全流程数据链演示
14.真正分布式配置指导

第四天

01.kafka存活时间设置
02.hive中substr的方法-按照年份统计指定人各月的通话次数
03.hive查询统计指标-controller实现
04.hive查询统计指标-jsp页面实现
05.linux awk命令批量按照java进程名称kill进程
06.ssh远程命令解决命令找不到-改造xcall.sh文件
07.编写管理脚本-hive查询统计结果数据
08.hive中查询所有用户的每个月的通话次数
09.ajax异步访问服务器中文数据乱码问题
10.使用echarts脚本库实现数据展现-柱状图
11.json数据后台查询-字符串处理-echart图表展示
12.使用ganglia进行集群监控-安装-注意事项-权限问题
13.yum源安装问题-cdh源使用
14.使用udp协议实现进程监控
15.使用udp协议实现接收方-发送方代码实现

------------------项目：团购网的标签生成（真实企业项目）------------------

01.团购网站的标签生成应用-描述-数据结构
02.团购网站的标签生成应用-数据分析过程
03.团购网站的标签生成应用-java编程抽取json串中的评论
04.团购网站的标签生成应用-scala编程实现标签生成程序

------------------项目：用户画像（真实企业项目）------------------

01.用户画像概念
02.性别-年龄进行画像分析
03.性别-年龄进行用户画像MR代码分析与数据解析
04.性别-年龄进行用户画像第一阶段实现运行
05.性别-年龄进行用户画像算法实现
06.性别-年龄进行用户画像总结

------------------项目：友盟网大数据（真实企业项目）------------------

第一天

01.业务模型说明
02.架构描述
03.术语解释-新增-活跃-用户等等
04.初始化weblog收集模块-公共模块-配置模块
05.初始化收集端模块-编程模拟上传json数据
06.通过firefox的poster插件测试web程序
07.创建client数据生成程序不断发送数据给server
08.client上传log时，将client系统时间写入request的header中
09.编写工具类，使用内省实现属性复制
10.处理server收到的日志

第二天

01.时间修正
02.属性复制
03.通过GeoLite提取ip地址的真实区域
04.工具类封装地理信息获取
05.startuplog对象的地址设置
06.地理信息进行缓存处理
07.-将日给kafka主题
08.准备kafka集群和zk集群并创建主题
09.启动kakfa集群-web程序-phone程序测试数据收集
10.分析flume收集kafka消息-分区手段
11.自定义***-添加logType和log创建时间的头信息
12.导出flumejar文件部署到flume lib下
13.配置flume
14.添加自定义***给配置文件
15.使用maven命令导出工件需要的所有第三方类库
16.联动测试-收集数据到hdfs
17.使用json serse作为hive表的串行化处理工具

第三天

01.使用当前线程类加载解决公共模块的加载问题
02.修改flume配置文件原生类型-避免大量小文件
03.使用脚本创建仓库表
04.调度导入分区表数据分析
05.时间导入数据分析
06.使用sed编辑器处理时间问题
07.编写exec.sh文件和exportData.sql文件
08.使用hive命令测试导入hdfs数据到hive分区表
09.修改手机端数据生成时间戳
10.实现调度周期导入hdfs数据到hive分区表
11.centos安装tomcat
12.部署web程序到centos的tomcat下
13.分析统计用户和新增用户数
14.计算一天的起始和结束时间片
15.计算指定天所在的周和月的时间线
16.自定义UDF实现天起始和天结束时间提取
17.注册UDF函数-测试

第四天

01.DateUtil通过偏移量定位时间-统一时间访问
02.注册函数-测试函数-选定库
03.查询日新增-周新增-月新增-用户总数
04.一次性统计一周内每天的新增用户
05.通过分区查询日活-月活-周活数
06.可视化web模块初始化
07.添加hive-jdbcclient驱动到可视化模块-测试
08.测试jdbc查询hive的自定义函数
09.测试SSM连接查询hive数据库
10.关闭spring管理的事务-修改mybatis映射文件中大于小于比较符转义处理
11.查询指定的app今天新增用户数
12.嵌套子查询-查询一周内每天新增用户
13.连接web的ui程序-测试
14.通过链接访问新增用户-提交job给hive-执行查询
15.dubbo概述
16.可视化web项目拆分-统计服务提供者模块初始化
17.配置dubbo服务提供方-检查zk
18.配置dubbo消费者方集成-1

第五天

01.在hive使用using jar方式注册hdfs上的库函数
02.dubbo连接超时修改-消费者可视化程序测试
03.dubbo实现当前周内每天新增用户数
04.dubbo测试通过web可视化-provider-Hiveserver实现周内用户新增统计
05.改造dubbo模块公共资源抽取
06.echart集成基础
07.echart使用ajax访问服务端数据-回传回调-刷新echart图表
08.echart集成json回传数据-配置web程序
09.echart集成json-pom中json配置调整
10.echart动态刷新图表-ajax访问controller方法
11.过去五周周活跃用户数-过去六月活跃用户数
12.沉默用户数
13.启动次数
14.版本分布
15.本周回流用户-1.版本分布
16.本周回流用户-2sql实现
17.连续n周活跃-忠诚用户-连续活跃用户
18.近期流失用户
19.留存用户
20.新鲜度分析

------------------项目：大数据电商项目（真实企业项目）------------------

项目概览

01.项目概览
02.项目初始化
03.大数据服务器配置
04.大数据架构配置
05.大数据业务处理

第一天

01.项目阐述
02.项目在IDEA中的初始化
03.项目在model创建和hibernate类库引入以及配置
04.项目Spring依赖项引入与spring配置文件与c3p0数据源配置
05.测试数据源和连接
06.编写Dao接口和基本实现类
07.编写Service和基本service实现
08.编写Service与beans配置-事务管理回顾-jvm结构回顾
09.编写tx事务管理
10.编写webmvc部分代码-controller程序

第二天

01.idea的web项目库配置-类找不到问题
02.idea的web中用户注册于登录
03.idea的web中完善User信息-验证注册过程
04.idea的web用户信息显示
05.web程序的用户编辑和修改
06.web nginx服务器centos安装启动停止

第三天

01.集群上安装tomcat
02.配置win7 nginx反向代理?os; nginxweb服务器配置
03.配置nginxweb服务器的日志格式以及切割注意事项
04.配置pom.xml项目打成war与war插件依赖设置
05.web项目打包成war在tomcat集群上进行分发
06.通过反向代理服务器访问web静态资源-查看日志记录情况
07.通过apache ab测试软件模拟高并发访问产生大量的日志信息
08.数据收集模式分析-flume-kafka模式收集
09.nginx实现logs滚动

第四天

01.flume+kafka集成-flume日志收集
02.kafka集群配置
03.kafka消费者编程-hdfs启动
04.web项目中使用curl标签部署web项目到tomcat集群
05.测试hdfs单元测试-读取hdfs文件数据
06.hdfs写入-工具类-日志解析格式处理
07.hdfs输出流池化处理

第五天

01.数据输出流池化以及优化处理(重用)
02.池化模式测试数据存储
03.使用TimerTask实现流池中的流周期性关闭
04.使用cron调度周期性添加hive分区表
05.导出消费者成jar到centos运行
06.hive清洗消费者
07.hive清洗消费者测试清洗过程

第六天

01.Hive使用load加载数据并进行数据topN统计
02.使用sqoop将Hive统计算出的结果导出到mysql
03.编写hive脚本和bash脚本实现统计数据的处理和导出
04.编写bash脚本动态等成hive脚本并执行批处理任务
05.前端读取mysql存放的统计生成图表
06.用户推荐系统处理-web部分
07.spark模型训练与模型存储与外部推荐系统集成

------------------项目：友盟网大数据（快学班）------------------

01.业务模型介绍 02.架构分析与设计
03.kafka集群-zk集群-实用脚本
04.日志收集的web程序-时间对其-属性复制
05.web程序部署-kafka消息发送-手机端程序编写1
06.web程序部署-kafka消息发送-手机端程序编写2
07.web程序部署-kafka消息发送-手机端程序编写3
08.可视化程序统计服务程序dubbo注册表
09.新增用户数查询实现.avi
10.spark sql实现hive统计
11.spark thriftserver分布式查询引擎
12.spark客户端代码注册hive udf函数1
13.spark客户端代码注册hive udf函数2

------------------项目：CSDN电商项目（快学班）------------------

1.项目描述，核心技术说明，业务流程分析，项目整体架构图解。

2.项目初始化
  基于servler3.0 的web层框架准备，springmvc+spring+hibernate的基础类库
  实现。
3.nginx服务器反向代理配置，
  nginx + tomcat实现动静资源隔离。
  nginx实现日志滚动。
  使用Apache ab进行压力测试。
4.部署flume和kafka集群。
  配置hive数据仓库，使用linux调度方式周期性生成分区表。
  利用spooldir source提取nginx滚动生成的日志文件到kafka集群。
  实现kafka消费者，数据分成两部分处理，一部分作为原生数据直接sink到hdfs，作为备份。
  另一部分进行数据清洗，并将清洗后的数据写入到hive数据库的分区表中。
5.配置hbase集群，实现业务数据例如用户信息，订单信息等精准数据的存储和查询。
  在hive中创建pv，uv等数据统计表，使用hbase存储处理器将数据映射到hbase中，以方便于快速查询和
  数据可视化处理。
  配置linux计划任务，周期性调用hive脚本，对上一天的日志信息进行kpi统计，统计结果进入hbase映射表中。
  集合web前端部分，对hbase库中数据进行展现和可视化处理。

------------------写在后-综合------------------

01.web同sparkSQL进行thriftserver进行集成
02.使用c3p0数据源池化thriftserver连接
03.java实现团购网标签生成程序
04.python爬虫程序(刘宗分享)
05.python爬虫程序-反扒手段
06.hbase bulk load
07.从mysql导出数据到hbase中，使用TableOutputFormat
08.导出mysql数据到hbase数据库
09.简历指导

------------------项目-共享单车项目------------------

项目简介微信小程序

01kafka集群问题
02项目介绍
03项目涉及的技术
04微信小程序演示
05创建微信小程序
06微信小程序显示地图
07微信小程序添加事件
08后台程序说明
09SpringBoot简介
10编写SpringBoot单车后台web项目
11后台web项目和微信小程序联调

Mongodb统计UV

01mongo简介
02mongo的安装
03设置mongo的用户名和密码
04mongo的基本操作
05mongodb的基本操作
06后台管理页面
07向mongo中记录log数据
08统计pv和uv指标

Nginx负载均衡

01Nginx负载均衡项目总体架构
02nginx的简介和安装
03nginx配置负载均衡
04nginx安装kafka插件
05小程序对接nginx-kafka

Flume与Kafka

01flume知识回顾
02自定义可记录偏移量的TailFileSouce
03KafkaChannel介绍
04KafkaChannel的使用方式
05KafkaChannel的具体使用
06自定义***
07更好用的TailDirSouce

短信验证与充值业务

01flume问题回顾
02共享单车业务流程介绍
03短信验证业务流程
04短信验证代码实现
05注册交押金身份认证代码实现
06充值业务实现
07短信代码缺少依赖解决
08腾讯地图短信api
09记录充值行为日志

Flume与Kafka充值、短信指标

01flume数据采集架构
02将kafka中的数据同步到hdfs中
03充值相关指标介绍
04活动参与相关指标

查找附近的单车实现与Redis集群部署

01springboot的mongodb相关注解
02springboot的mongodb的geo注解使用
03查找附近的单车实现
04redis集群架构简介
05redis集群配置
06redis集群测试

报修与骑行

01报修和骑行模块
02mongodb集群介绍
03mongodb分片和副本集介绍
04mongodb集群安装
05spark整合mongodb集群
06springboot整合mongodb集群
07mycat介绍
08mycat安装
09指标说明和作业

【下载地址】

游客，如果您要查看本帖隐藏内容请回复

ljhaabb · ljhaabb 发表于 2019-3-17 21:36:04

看了LZ的帖子，我只想说一句很好很强大！支持吾爱编程网！

mousefat · mousefat 发表于 2019-3-18 00:04:06

看帖看完了至少要顶一下，还可以加入到淘帖哦！支持吾爱编程网！

mas曹 · mas曹发表于 2019-3-18 09:24:01

十八掌徐培成倾力打造大数据开发

chenxing2 · chenxing2 发表于 2019-3-18 09:25:44

看了LZ的帖子，我只想说一句很好很强大！支持吾爱编程网！

galtg · galtg 发表于 2019-3-18 14:41:17

感谢楼主分享

zbx931197485 · zbx931197485 发表于 2019-3-18 16:51:29

看帖看完了至少要顶一下，还可以加入到淘帖哦！支持吾爱编程网！

songlaf · songlaf 发表于 2019-3-18 19:15:54

哥顶的不是帖子，是寂寞！支持吾爱编程网！

wa_ljb · wa_ljb 发表于 2019-3-18 19:28:46

看了LZ的帖子，我只想说一句很好很强大！支持吾爱编程网！

cdluoshuang · cdluoshuang 发表于 2019-3-19 11:30:40

哥顶的不是帖子，是寂寞！支持吾爱编程网！

项目实战

[云计算大数据] [百度网盘]十八掌徐培成倾力打造大数据开发

主题推荐

推荐阅读

阅读排行

关注我们

站长推荐 /1

编程学院

高薪学院

运维学院

平台简介