博文图片来源:https://github.com/dataprofessor/infographic
重点关注机器学习(绿色)、数据预处理(粉色)、数据可视化(橙色)
1.机器学习
无监督学习:聚类:主成分分析、K-means聚类
有监督学习:回归、分类;算法:神经网络(深度学习(GAN、CNN)、反向传播)、树型(随机森林、XGBoost、决策树)、支持向量机。
2.数据预处理
数据获取、缺失数据处理(详细参见此)数据清洗、特征工程、特征选择(过滤法(方差过滤、相关性过滤法(卡方过滤、F检验(线性关系)、互信息法(任意关系))、嵌入法、包装法)
3.数据可视化
探索性数据分析、解释性数据分析
类型(分布、对比、关系、构成)