学习目标
1. 掌握数据科学库的使用
2. 掌握数据基本处理的方法
3. 掌握机器学习中处理数据的方法
4. 理解机器学习基础算法原理
5. 理解机器学习进阶算法原理
6. 掌握集成学习算法原理
7. 对实际工作中收集到数据进行数据可视化、基本分析,提取有价值信息
8. 把实际工作、生活中遇到的问题转换为可以用机器学习解决的模型
9. 实现针对不同问题,选择不同算法模型,同时在该模型的基础上,对该算法进行调优
主讲内容1:人工智能概述
初步认识人工智能包含范围,机器学习工作流程,训练模型评估模式,同时搭建好机器学习基础环境
1.人工智能概述 /
2.机器学习定义 /
3.机器学习工作流程 /
4.机器学习算法分类 /
5.回归问题 /
6.分类问题 /
7.算法模型评估 /
8.欠拟合 /
9.过拟合 /
10.准确率 /
11.MSE /
12.Azure机器学习平台实验 /
13.深度学习基本介绍 /
14.神经网络 /
15.感知机 /
16.机器学习基础环境安装与使用 /
主讲内容2:科学计算库
通过Matplotlib,Numpy,Pandas,Seaborn等科学计算库的介绍,学习人工智能中,数据的基本处理,可视化展示等过程
1.Matplotlib架构介绍 /
2.Matplotlib基本功能实现 /
3.Matplotlib实现多图显示 /
4.Matplotlib绘制各类图形 /
5.Numpy运算优势 /
6.数组的属性 /
7.数组的形状 /
8.Numpy实现数组基本操作 /
9.Numpy实现数组运算 /
10.偏导数 /
11.极限 /
12.矩阵求导 /
13.向量 /
14.矩阵交换律 /
15.矩阵乘法 /
16.矩阵求逆 /
17.伴随矩阵 /
18.pandas基本数据操作 /
19.DataFrame /
20.Series /
21.MultiIndex /
22.panel /
23.pandas画图 /
24.文件读取和存储(Excel,CSV,SQL,HDF,Json) /
25.缺失值处理 /
26.数据离散化 /
27.数据合并 /
28.交叉表和透视表 /
29.分组和聚合 /
30.单变量图形可视化 /
31.双变量图形可视化 /
32.多变量图形可视 /
33.化类别散点图 /
34.箱线图 /
35.小提琴图 /
36.点图 /
主讲内容3:sklearn及特征工程
介绍sklearn的基本使用,机器学习中特征工程处理方法,特征预处理、特征提取,特征降维适用环境已经实现方法
1.sklearn介绍 /
2.sklearn获取数据集 /
3.数据集属性介绍 /
4.数据集划分 /
5.留出法 /
6.留一法 /
7.KFold /
8.StratifiedKFold /
9.自助法 /
10.特征工程 /
11.特征预处理 /
12.归一化 /
13.标准化 /
14.特征提取 /
15.字典特征提取 /
16.文本特征提取 /
17.Tf-idf /
18.特征降维 /
19.特征选择 /
20.过滤式 /
21.方差选择法 /
22.斯皮尔曼相关系数 /
23.皮尔逊相关系数 /
24.低方差特征过滤 /
25.嵌入式 /
26.交叉验证 /
27.网格搜索 /
28.模型保存和加载 /
29.维灾难 /
主讲内容4:机器学习基础
初步认识机器学习经典算法,了解机器学习基础经典算原理,同时会使用sklearn库实现机器学习基础经典算法
1.KNN算法流程 /
2.欧式距离 /
3.曼哈顿距离 /
4.切比雪夫距离 /
5.闵氏距离 /
6.标准化欧式距离 /
7.余弦距离 /
8.汉明距离 /
9.杰卡德距离 /
10.马氏距离 /
11.数据的连续属性和离散属性 /
12.KNN中k值的选择 /
13.kd树 /
14.KNN算法优缺点介绍 /
15.线性回归概念和api与原理剖析 /
16.误差平方和 /
17.FGD /
18.SGD /
19.mini-batch /
20.SAG /
21.数据归一化 /
22.优化器的选择 /
23.Lasso回归 /
24.岭回归 /
25.Elastic Net /
26.early stopping /
27.判定边界 /
28.动态规划 /
29.sigmoid /
30.对数似然损失 /
31.混淆矩阵 /
32.精确率 /
33.召回率 /
34.F1-score /
35.ROC曲线 /
36.AUC指标 /
37.ROC曲线的绘制 /
38.imbalanced-learn /
39.随机过采样 /
40.SMOTE /
41.随机欠采样 /
42.决策树算法原理和api使用 /
43.划分选择 /
44.熵 /
45.信息增益 /
46.增益率 /
47.基尼指数 /
48.剪枝处理 /
49.预剪枝 /
50.后剪枝 /
51.ID3 /
52.CART /
53.条件熵和交叉熵连续与缺失值处理 /
54.多变量决策树 /
55.回归决策树基本流程 /
56.回归/分类决策树的区别 /
主讲内容5:机器学习进阶
掌握机器学习基础算法的基础上,进一步掌握机器学习进阶算法原理,能推导出朴素贝叶斯,支持向量机等算法,同时可以使用sklearn库实现
1.朴素贝叶斯原理和api函数 /
2.独立同分布 /
3.贝叶斯公式 /
4.拉普拉斯平滑系数 /
5.概率分布 /
6.多项式分布 /
7.高斯分布 /
8.条件概率 /
9.贝叶斯编程及A/B测试 /
10.SVM算法原理 /
11.感知机学习策略及算法收敛性 /
12.线性可分及异或不可分 /
13.对偶问题及KKT /
14.SMO算法 /
15.软间隔与正则化 /
16.支持向量回归 /
17.核函数:最简单的核函数距离 /
18.相似性函数 /
19.常用核函数(GBF和Gassian) /
20.核函数对比 /
21.聚类算法介绍 /
22.kmeans流程和质心 /
23.k-means评价指标及优化内部指标 /
24.外部指标 /
25.优化方法(二分kmeans /
26.kmeans++) /
27.SC系数/CH系数 /
28.极大似然估计 /
29.期望估计 /
30.极大化估计 /
31.Markov chain /
32.可见状态链 /
33.隐含状态链 /
34.HMM算法原理 /
35.前向后向算法 /
36.Viterbi算法 /
37.Baum-Welch /
38.MultinomialHMM /
主讲内容6:集成学习
熟悉集成学习中的bagging,boosting两大分支内容,同时掌握原理推导,掌握集成学习最新算法xgboost,lightGBM等内容,可以通过代码实现集成学习模型训练及调优
1.bagging和boosting介绍 /
2.随机森林 /
3.包外估计 /
4.无偏估计;boosting:离散型AdaBoost /
5.实数型AdaBoost /
6.GBDT /
7.残差拟合 /
8.集成学习进阶-xgboost /
9.xgboost目标函数推导 /
10.树的复杂度定义 /
11.xgboost回归树构建 /
12.xgboost与GBDT对比 /
13.通用参数 /
14.Booster参数介绍 /
15.lightGBM基本介绍 /
16.Histogram的决策树算法介绍 /
17.level-wise /
18.leaf-wise /
19.特征并行 /
20.数据并行 /