《机器学习实战》笔记
1.机器学习算法的用途
监督学习
算法 | 用途 |
---|---|
K-近邻算法 | 线性回归 |
朴素贝叶斯算法 | 局部加权线性回归 |
支持向量机 | Ridge回归 |
决策树 | Lasso最小回归系数估计 |
无监督学习
算法 | 用途 |
---|---|
K-均值 | 最大期望算法 |
DBSCAN | Parzen窗设计 |
2.选择算法的依据
- 使用算法的目的,要完成的任务是什么样的
- 要收集并分析的数据是什么样的
目的 | 算法 |
---|---|
预测目标变量的值 | 监督学习 |
目标变量为离散型 | 分类器算法 |
目标变量为连续型 | 回归算法 |
目的 | 算法 |
不需要预测目标变量的值 | 无监督学习 |
仅将数据划分为离散的组 | 聚类算法 |
估计数据与离散的组的相似程度 | 密度估计算法 |
3.应该了解的数据特性
- 特征值是离散型还是连续型
- 特征值中的缺失值和异常值
- 特征值发生的频率
4.开发机器学习应用程序的步骤
- 收集数据(爬虫,API等)
- 保证输入数据的格式符合要求
- 分析输入数据,数据清洗
- 训练算法(无监督学习不需要训练)
- 测试算法,不满意测试结果就返回上一步继续训练算法
- 使用算法,执行任务