人工智能,下一场互联网革命!2017年机器学习工程师正在成为IT行业需求缺口最大的岗位,机器学习平均年薪较其他岗位平均年薪高。并且随着从业年限递增,机器学习从业人员平均薪酬涨幅高。机器学习从业人员平均月薪分布,超过70%从业者月薪为20K-50K。
【课程内容】
----------------数学基础----------------
本阶段主要从数据分析、概率论和线性代数及矩阵和凸优化这四大块讲解基础,旨在训练大家逻辑能力,分析能力。拥有良好的数学基础,有利于大家在后续课程的学习中更好的理解机器学习和深度学习的相关算法内容。同时对于AI研究尤为重要,例如人工智能中的智能很大一部分依托“概率论”实现的。
一、数据分析
1)常数e
2)导数
3)梯度
4)Taylor
5)gini系数
6)信息熵与组合数
7)梯度下降
8)牛顿法
二、概率论
1)微积分与逼近论
2)极限、微分、积分基本概念
3)利用逼近的思想理解微分,利用积分的方式理解概率
4)概率论基础
5)古典模型
6)常见概率分布
7)大数定理和中心极限定理
8)协方差(矩阵)和相关系数
9)最大似然估计和最大后验估计
三、线性代数及矩阵
1)线性空间及线性变换
2)矩阵的基本概念
3)状态转移矩阵
4)特征向量
5)矩阵的相关乘法
6)矩阵的QR分解
7)对称矩阵、正交矩阵、正定矩阵
8)矩阵的SVD分解
9)矩阵的求导
10)矩阵映射/投影
四、凸优化
1)凸优化基本概念
2)凸集
3)凸函数
4)凸优化问题标准形式
5)凸优化之Lagerange对偶化
6)凸优化之牛顿法、梯度下降法求解
----------------python基础与高级应用----------------
随着AI时代的到来以及其日益蓬勃的发展,Python作为AI时代的头牌语言地位基本确定,机器学习是着实令人兴奋,但其复杂度及难度较大,通常会涉及组装工作流和管道、设置数据源及内部和云部署之间的分流而有了Python库后,可帮助加快数据管道,且Python库也在不断更新发布中,所以本阶段旨在为大家学习后续的机器学习减负。
一、容器
1)列表:list
2)元组:tuple
3)字典: dict
4)数组: Array
5)切片
6)列表推导式
7)浅拷贝和深拷贝
二、函数
1)lambda表达式
2)递归函数及尾递归优化
3)常用内置函数/高阶函数
4)项目案例:约瑟夫环问题
三、常用库
1)时间库
2)并发库
3)科学计算库
4)Matplotlib可视化绘图库
5)锁和线程
6)多线程编程
四、爬虫
1)正则表达式
2)爬虫
3)案例
4)智联招聘案例
5)QQ音乐案例
----------------机器学习----------------
机器学习利用算法去分析数据、学习数据,随后对现实世界情况作出判断和预测。因此,与预先编写好、只能按照特定逻辑去执行指令的软件不同,机器实际上是在用大量数据和算法去“自我训练”,从而学会如何完成一项任务。
所以本阶段主要从机器学习概述、数据清洗和特征选择、回归算法、决策树、随机森林和提升算法、SVM、聚类算、EM算法、贝叶斯算法、隐马尔科夫模型、LDA主题模型等方面讲解一些机器学习的相关算法以及这些算法的优化过程,这些算法也就是监督算法或者无监督算法。
一、机器学习
1)机器学习概述
二、监督学习
1)逻辑回归
2)softmax分类
3)条件随机场
4)支持向量机svm
5)决策树
6)随机森林
7)GBDT
8)集成学习
三、非监督学习
1)高斯混合模型
2)聚类
3)PCA
4)密度估计
5)LSI
6)LDA
7)双聚类
8)降维算法
四、数据处理与模型调优
1)特征提取
2)数据预处理
3)数据降维
4)模型参数调优
5)模型持久化
6)模型可视化
7)优化算法:坐标轴下降法和最小角回归法
8)数据挖掘关联规则算法
9)感知器模型
----------------数据挖掘与项目实战----------------
本阶段主要通过音乐文件分类和金融反欺诈模型训练等项目,帮助大家对于上阶段的机器学习做更深入的巩固,为后续深度学习及数据挖掘提供项目支撑。
项目一:百度音乐系统文件分类
音乐推荐系统就是利用音乐网站上的音乐信息,向用户提供音乐信息或者建议,帮助用户决定应该听什么歌曲。而个人化推荐则是基于音乐信息及用户的兴趣特征、听歌历史行为,向用户推荐用户可能会感兴趣的音乐或者歌手。推荐算法主要分为以下几种:基于内容的推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐等;推荐系统常用于各个互联网行业中,比如音乐、电商、旅游、金融等。
项目二:千万级P2P金融系统反欺诈模型训练
目前比较火的互联网金融领域,实质是小额信贷,小额信贷风险管理,本质上是事前对风险的主动把控,尽可能预测和防范可能出现的风险。本项目应用GBDT、Randomforest等机器学习算法做信贷反欺诈模型,通过数据挖掘技术,机器学习模型对用户进行模型化综合度量,确定一个合理的风险范围,使风险和盈利达到一个平衡的状态。
----------------深度学习----------------
深度学习是实现机器学习的技术,同时深度学习也带来了机器学习的许多实际应用,拓展了AI的使用领域,本阶段主要从TensorFlow、BP神经网络、深度学习概述、CNN卷积神经网络、递归神经网、自动编码机,序列到序列网络、生成对抗网络,孪生网络,小样本学习技术等方面讲解深度学习相关算法以,掌握深度学习前沿技术,并根据不同项目选择不同的技术解决方案。针对公司样本不足,采用小样本技术和深度学习技术结合,是项目落地的解决方案。
1)TensorFlow基本应用
2)BP神经网络
3)深度学习概述
4)卷积神经网络(CNN)
5)图像分类(vgg,resnet)
6)目标检测(rcnn,fast-rcnn,faster-rcnn,ssd)
7)递归神经网络(RNN)
8)lstm,bi-lstm,多层LSTM
9)无监督学习之AutoEncoder自动编码器
10)Seq2Seq
11)Seq2Seq with Attension
12)生成对抗网络
13)irgan
14)finetune及迁移学习
15)孪生网络
16)小样本学习
----------------自然语言处理----------------
自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它已成为人工智能的核心领域。自然语言处理解决的是“让机器可以理解自然语言”这一到目前为止都还只是人类独有的特权,被誉为人工智能皇冠上的明珠,被广泛应用。本阶段从NLP的字、词和句子全方位多角度的学习NLP,作为NLP的基础核心技术,对NLP为核心的项目,如聊天机器人,合理用药系统,写诗机器人和知识图谱等提供底层技术。通过学习NLP和深度学习技术,掌握NLP具有代表性的前沿技术。
1)词(分词,词性标注)代码实战
2)词(深度学习之词向量,字向量)代码实战
3)词(深度学习之实体识别和关系抽取)代码实战
4)词(关键词提取,无用词过滤)代码实战
5)句(句法分析,语义分析)代码实战
6)句(自然语言理解,一阶逻辑)代码实战
7)句(深度学习之文本相似度)代码实战
----------------图像处理----------------
数字图像处理(Digital Image Processing)是通过计算机对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。广泛的应用于农牧业、林业、环境、军事、工业和医学等方面,是人工智能和深度学习的重要研究方向。深度学习作为当前机器学习领域最热门的技术之一,已经在图像处理领域获得了应用,并且展现出巨大的前景。本阶段学习了数字图像的基本数据结构和处理技术,到前沿的深度学习处理方法。掌握前沿的ResNet,SSD,Faster RCNN等深度学习模型,对图像分类,目标检测和模式识别等图像处理主要领域达到先进水平。实际工作中很多项目都可以转化为本课程的所学的知识去解决,如行人检测,人脸识别和数字识别。
一、图像基础
图像读,写,保存,画图(线,圆,多边形,添加文字)
二、图像操作及算数运算
图像像素读取,算数运算,ROI区域提取
三、图像颜色空间运算
图像颜色空间相互转化
四、图像几何变换
平移,旋转,仿射变换,透视变换等
五、图像形态学
腐蚀,膨胀,开/闭运算等
六、图像轮廓
长宽,面积,周长,外接圆,方向,平均颜色,层次轮廓等
七、图像统计学
图像直方图
八、图像滤波
高斯滤波,均值滤波,双边滤波,拉普拉斯滤波等
----------------企业项目实战----------------
AI大数据互联网电影智能推荐(第一季)
随着科技的发展,现在视频的来源和类型多样性,互联网视频内容充斥着整个网络,如果仅仅是通过翻页的方法来寻找自己想看的视频必然会感到疲劳,现在急需一种能智能推荐的工具,推荐系统通过分析用户对视频的评分分析,对用户的兴趣进行建模,从而预测用户的兴趣并给用户进行推荐。
Python是一种面向对象的解释型计算机程序设计语言,Python具有丰富和强大的库。它常被昵称为胶水语言,而大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,企业面临海量数据的到来,大多选择把数据从本地迁移至云端,云端将成为最大的非结构化数据存储场所。本项目主要以客户咨询为载体,分析客户的群体,分布,旨在挖掘客户的内在需求,帮助企业实现更有价值的营销。
一、教务管理系统业务介绍
1)教务管理系统框架讲解
2)系统业务逻辑介绍
二、大数据需求分析
1)明确数据需求
2)大数据分析过程
3)分析难点和解决方案
4)大数据相关技术选型
三、构建分布式大数据框架
1)Hadoop分布式集群配置
2)ZooKeeper高可用
3)SQOOP数据转移
4)ETL数据清洗
5)HIVE数据分析
6)HBase数据存储
四、基于教务管理系统大数据分析
1)业务数据分析指标设定
2)操作MapReduce分而治之
3)使用Hive进行数据整合抽离
4)使用HBase存储非结构话数据
五、大数据可视化
1)可视化技术选型
2)Echarts代码展示炫酷视图
3)使用Tableau进行数据可视化展示
AI法律咨询大数据分析与服务智能推荐实战项目(第一季)
本项目结合目前流行的大数据框架,在原有成熟业务的前提下,进行大数据分析处理,真实还原企业应用,让学员身临其境的感受企业大数据开发的整个流程。
项目的业务系统底层主要采用JAVA架构,大数据分析主要采用Hadoop框架,其中包括Kettle实现ETL、SQOOP、Hive、Kibana、HBASE、Spark以及人工智能算法等框架技术;采用真实大数据集群环境的搭建,让学员切身感受企业项目的从0到1的过程。
一、系统业务介绍
1)底层业务实现框架讲解
2)功能模块讲解
二、系统架构设计
1)总体架构分析
2)数据流向
3)各技术选型承载作用
4)部署方案
三、详尽实现
1)原始数据处理
2)ETL数据导入
3)MR数据计算
4)Hive数据分析
四、数据可视化
1)采用Highcharts插件展示客户偏好曲线图
2)使用Tableau进行数据分析可视化展示
五、项目优化
1)ZooKeeper实现HA
2)集群监控的整体联调
【下载地址】
|