1、绪论
-
什么是机器学习
机器学习是通过计算的手段利用经验来改善系统自身的性能,从数据中产生“模型”算法,即“学习算法”,然后根据模型进行预测。 -
基本术语
- 示例/样本:关于一个事件或对象的描述;也就是一个记录,多个记录构成了数据集。
- 属性:反映事件或对象在某方面的表现或性质的事项,属性的取值称为属性值,属性张成的空间称为“属性空间”、“样本空间”或“输入空间”。
- 把属性对应到坐标轴,那么对象的属性值就可以在坐标空间中用一个向量表示,因此也把一个示例称为一个特征向量。
- 学习/训练:从数据中学得模型的过程。训练过程用的数据位训练数据,每个样本称为训练样本,训练样本组成集合——训练集。
- 标记:关于示例结果的信息,有标记锷示例就成了样例。
- 分类和回归:如果预测的是离散值,就是分类;预测的是连续值,就是回归。其中二分类中一个叫正类,另一个叫反类。
- 测试:根据学得的模型进行预测,对应的样本叫做测试样本。
- 有监督/无监督学习:根据训练集是否有标记信息划分。
- 泛化:机器学习的模型应具有适应新样本的能力,就是“泛化”能力。
-
假设空间
- 归纳学习:从样例中学习,分为广义和狭义,狭义的归纳学习要求从数据中学得概念,因此称为“概念学习”,目前来说概念学习研究、应用很少,大多还是“黑箱”模型。
- 假设空间:就是所有可能存在的情况的集合
- 版本空间:与已知数据集一致的所有假设的子集集合。
-
发展历程和应用现状我感觉了解就好了吧
2、模型评估与选择
- 1、经验误差与过拟合
错误率:分类错误的样数占总样本数的比例,对错误率相对应的是精度,精度=1-错误率。
误差:学习器的实际预测输出与样本真实输出之间的差异。在训练集上的误差称为“训练误差”,在新样本上的误差称为“泛化误差”。
过拟合:在训练集上训练的精度很好,甚至太好时,可能已经把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,导致泛化性能下降。
欠拟合:与过拟合相对应,指对训练样本的一般性质尚为学好。 - 2、评估方法
通常,通过实验测试来对学习器的泛化误差进行评估并进而做出选择。这就需要一个测试集来评估误差,用测试误差近似泛化误差。而测试集选择一般与训练集互斥。
从数据集中处理出训练集和测试集的方法:- 留出法
直接将数据集划分成两个互斥的集合,分别用作训练接和测试集。
注意:训练集和测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差。例如要求比例近似时可以采用“分层采样”的方法,保证训练集和测试集中相同种类的比例一样。这个方法一般将大约 2 / 3 − 4 / 5 的 样 用 于 训 练 2/3-4/5的样用于训练 2/3−4/5的样用于训练,剩余的用于测试。 - 交叉验证法
现将数据集D划分为k个大小相等的互斥子集,每个子集都尽可能的保持数据分布的一致性,即上述的取样方法。然后每次用k-1个子集的并集作为训练集,剩余的一个作为测试集,可以进行k次训练和测试,最终返回k次测试结果的平均值。这种方法也称为k折交叉验证,常用的是10折,其他也有5、20等。
例如下边的:
- 留出法
训练 | 测试 |
---|---|
D 1 D 2 . . . . . . D 9 D_1D_2......D_9 D1D2......D9 | D 10 D_{10} D10 |
D 1 D 2 . . . . . D 8 D 1 0 D_1D_2.....D_8D_10 D1D2.....D8D10 | D 9 D_9 D9 |
… | … |
可以进行10次测试和训练。
- 自助法
以自助采样法为基础,给定m个样本的数据集D,每次随机从D中取出一个样本,放入数据集D’中,然后做有放回的取样,执行m次,得到的集合D’用作训练集,则D’中的样本可能重复,在m次取样中始终不被取到的概率是 ( 1 − 1 m ) m (1-\frac{1}{m})^m (1−m1)m取极限约为0.368,也就是说整个样本D中没有0.368的样品不会被取到,可以用这部分作为测试集,即D\D’为测试集。
虽然自助法可以生成多个不同的训练\测试集,但是取样时会引入误差,在初始量不足时,一般不用它,而用另外两种。
- 调参与最终模型
调参一般给定一个范围和步长,从生成的参数中选择,不同参数生成的模型也不同。
注意:通常把学得的模型在实际应用中遇到的数据称为测试数据,而在调参和模型选择时的测试集称为验证集。
性能度量
衡量模型泛化能力的标准。
回归任务最常用的性能度量是:均方误差
E
(
f
;
D
)
=
1
m
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2
E(f;D)=m1∑i=1m(f(xi)−yi)2
而对一般知道概率密度的分布,就是在相应区间上积分差得平方乘以概率密度。
常用的性能度量:
- 错误率与精度
是分类任务中常用的性能度量方法。
对于样例集D,分类错误率定义为:
E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum_{i=1}^mI(f(x_i)\neq y_i) E(f;D)=m1∑i=1mI(f(xi)=yi)
精度为: a c c ( f , D ) = 1 − E ( f ; D ) acc(f,D)=1-E(f;D) acc(f,D)=1−E(f;D)
对于数据分布D,概率密度为p()的:
错误率: E ( f ; D ) = ∫ x − d I ( f ( x ) ≠ y ) p ( x ) d x E(f;D)=\int_{x-d}I(f(x)\neq y)p(x)dx E(f;D)=∫x−dI(f(x)=y)p(x)dx
精度: a c c ( f ; D ) = 1 − E ( f ; D ) acc(f;D)=1-E(f;D) acc(f;D)=1−E(f;D) - 查准率、查全率与F1
对于二分类问题,根据真实类别和预测类别划分为:真正例、假正例、真反例、假反例,分别用TP、FP、TN、FN,来表示。真实情况 预测结果 - - 正例 反例 正例 TP FN 反例 FP TN
查准率为:
P
=
T
P
T
P
+
F
P
P=\frac{TP}{TP+FP}
P=TP+FPTP,预测样例结果为正例中真实是正例的比例。
查全率:
R
=
T
P
T
P
+
F
N
R=\frac{TP}{TP+FN}
R=TP+FNTP,预测结果是正例占真实正例的比例。
度量学习器优劣时常用F1度量,综合查准率和查全率。
F
1
=
2
×
P
×
R
P
+
R
=
2
×
T
P
样
例
总
数
+
T
P
−
T
N
F1=\frac{2×P×R}{P+R}=\frac{2×TP}{样例总数+TP-TN}
F1=P+R2×P×R=样例总数+TP−TN2×TP
F1度量的一般表达式为:
F
β
=
(
1
+
β
2
)
×
P
×
R
β
2
×
P
+
R
F_{\beta}=\frac{(1+\beta^2)×P×R}{\beta^2×P+R}
Fβ=β2×P+R(1+β2)×P×R
beta大于1查全率影响大,小于0查准率影响大。
偏差与方差
泛化误差可分解为偏差、方差与噪声之和
方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动的影响;噪声表达了学习问题本身的难度,表示学习任务所能到达的期望泛化误差的下界。