1.机器学习分类
监督学习和无监督学习区别
| 监督学习 | 无监督学习 |
样本集 | 训练集+测试集 训练集:特征+标签 | 训练集+测试集 训练集:特征 |
定义 | 通过训练,让机器找到特征和标签之间的联系后,当面对测试集中只有特征没有标签的数据时,可以自行判断出其标签。 | 通过训练,在未加标签的数据中,找到隐藏的结构 |
典型算法 | k-近邻算法 朴素贝叶斯算法 支持向量机 决策树 | K-Means算法 DBSCAN聚类算法 |
监督学习分类
| 分类 | 回归 |
定义 | 将实例数据划分到合适的类别 | 主要用于预测数值型数据 |
应用实例 | 判断橘子是否好吃(二分类) 手写数字的自动识别(多分类) | 股票价格波动预测 房屋价格预测 天气温度预测 |
强化学习
可以训练程序做出某一决定。程序在某一情况下尝试所有的可能行动,记录不同行动的结果并试着找出最好的一次尝试来做决定。属于这一类算法的有马尔可夫决策过程
2.机器学习过程
3.机器学习使用判断
需要收集或分析的数据
- 预测明天是否下雨(二分类),可以根据历史天气情况做出预测,所以选择监督学习算法;
- 给一群陌生人分组,但是没有这些人的类别信息,所以选择无监督学习算法,可以通过他们身高、体重、肤色等特征进行处理;
4.机器学习开发流程
收集数据->准备数据->分析数据->训练模型->测试模型
5.专业术语
专业名词
- 特征、属性:对象的某一方面
- 维数:描述样本参数的个数
- 样本集:包含多个样本数据的集合
- 训练集:训练样本集
- 测试集:测试样本集
- 二分类:只涉及两个类别的分类任务
- 多分类:涉及多个类别的分类
- 正类:二分类里的一个
- 反类:二分类里的一个
- 泛化:训练好的模型适用于新样本的能力
数据集的划分
- 训练集:学习样本数据集,通过匹配一些参数建立模型,主要用来训练模型。考前疯狂刷题
- 测试集:测试训练好的模型的分辨能力。考试真题
模型拟合程度
- 过拟合:模型把训练样本学习的“太好了”,可能把一些训练样本自身的特性当作所有样本都有的性质,导致泛化能力下降。
- 欠拟合:模型在训练的过程中,没有很好的捕捉数据特征;