一、课程学习目标
1.每个算法模块按照“原理讲解→分析数据→自己动手实现→特征与调参”的顺序。
2.“Python数据清洗和特征提取”,提升学习深度、降低学习坡度。
3.增加网络爬虫的原理和编写,从获取数据开始,重视将实践问题转换成实际模型的能
力,分享工作中的实际案例或Kaggle案例:广告销量分析、环境数据异常检测和分析、
数字图像手写体识别、Titanic乘客存活率预测、用户-电影推荐、真实新闻组数据主题
分析、中文分词、股票数据特征分析等。
4.强化矩阵运算、概率论、数理统计的知识运用,掌握机器学习根本。
5.阐述机器学习原理,提供配套源码和数据。
6.以直观解释,增强感性理解。
7.对比不同的特征选择带来的预测效果差异。
8.重视项目实践,重视落地。思考不同算法之间的区别和联系,提高在实际工作中选择
算法的能力。
9. 涉及和讲解的部分Python库有:Numpy、Scipy、matplotlib、Pandas、scikit-learn、
XGBoost、libSVM、LDA、Gensim、NLTK、HMMLearn。
二、课程目标
本课程特点是从数学层面推导最经典的机器学习算法,以及每种算法的示例和代码实现(Python)、如何做算法的参数调试、以实际应用案例分析各种算法的选择等。
三、培训对象
大数据分析应用开发工程师、大数据分析项目的规划咨询管理人员、大数据分析项目的IT项目高管人员、大数据分析与挖掘处理算法应用工程师、大数据分析集群运维工程师、大数据分析项目的售前和售后技术支持服务人员
时间地点:
2020年10月23日--25日北京(22日报到)
2020年10月31日--11月3日杭州(30日报到)
2020年11月26日--29日深圳(25日报到)
139---323---27---33-----8
四、详细培训内容介绍
课程模块
课程主题
主要内容及案例和演示
模块一
机器学习的数学基础1 - 数学分析
1. 机器学习的一般方法和横向比较
2. 数学是有用的:以SVD为例
3. 机器学习的角度看数学
4. 复习数学分析
5. 直观解释常数e
6. 导数/梯度
7. 随机梯度下降
8. Taylor展式的落地应用
9. gini系数
10. 凸函数
11. Jensen不等式
12. 组合数与信息熵的关系