机器学习的一些概念:
最早的机器学习–垃圾邮件分类
怎么做的:
- 编写规则,定义"垃圾邮件"
- 对于很多问题,规则很难定义
- 规则不断变化
现在的应用:
- 图像识别
- 人脸识别
- 数字识别
- 等等
机器学习的一些算法:
KNN | SVM |
---|---|
线性回归 | 决策树 |
多项式回归 | 随机森林 |
逻辑回归 | 集成学习 |
模型正则化 | 模型选择 |
PCA | 模型调整 |
需要考虑的一些问题:
- 如何评价算法的好坏
- 如何解决过拟合和欠拟合
- 如何验证算法的正确性
实验环境:
Python3
scikit-learn 机器学习库
numpy motplotlib
机器学习基础:
数据----数据集dataset
每个样本—sample
特征—feature
每一行是一个样本X(i)
最后一列是标记y(i)
机器学习的基本任务:
- 分类 :二分类任务,多分类 (数字识别,图像识别等)
- 回归:结果是一个连续的数字的值,而非一个类别(房屋价格,市场分析等)
分类
- 监督学习:给机器的训练数据有标记或者有答案—>分类,回归
- 非监督学习:给机器的训练数据没有标记或者没有答案----->聚类分析
- 半监督学习:一部分数据有标记一部分没有
- 增强学习:根据周围环境,采取行动,学习行动方式------>机器人
其他分类
- 批量学习
- 在线学习
xxxxx
- 参数学习
- 非参数学习