1.机器学习
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
其研究的主要内容是关于在计算机上从数据产生“模型”的算法,即“学习算法”,然后利用学习算法基于经验数据产生模型,面对新的情况,模型会提供相应的判断。
例如在用机器学习挑好瓜时,我们只需要找到一定的样品,记录每个西瓜的特征(色泽、根蒂等),并记录下这个西瓜是否为好瓜,将这些数据提供给学习算法就能产生一个判断西瓜好坏的模型。
2.基本术语
- 数据集:收集到的记录的集合。
- 示例:关于一个事件或对象的描述,又称样本、特征向量。
- 属性:反应事件或对象在某方面的表现或性质的事项,又称特征。
- 属性空间:属性长成的空间,又称样本空间、输入空间。
- 维数:每个示例的属性描述的个数。
- 学习:从数据中学得模型的过程,又称训练。
- 训练数据:训练过程中使用的数据。
- 训练样本:训练数据中的每个样本。
- 训练集:训练样本的集合。
- 学习器:学习算法在给定数据和参数空间上的实例化。
- 分类:要预测的结果是离散值,例识别好瓜、坏瓜。
- 回归:要预测的结果是连续值,例识给出西瓜的成熟度。
- 测试:使用学得模型进行预测的过程。
- 测试样本:被预测的样本。
- 聚类:将训练集中的训练样本分为若干组。
- 泛化能力:学的模型适用于新样本的能力。
3.假设空间
将学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。所有假设组成的空间即为假设空间,假设的表示一旦确定,假设空间及其规模大小就确定了。
计算假设空间规模大小示例:
若“色泽” “根蒂” “敲声”分别有3、2、2种可能取值,则假设空间规模大小为
4
×
3
×
3
+
1
=
37
4\times3\times3+1=37
4×3×3+1=37。
假设空间由以下3部分组成:
- 属性:色泽,根蒂,敲声,且取值分别有3,2,2种选择;
- 色泽,根蒂,敲声也许无论取什么值都合适,我们分别用通配项来表示,于是取值分别多了1种选择;
- 还有一种极端情况,有可能“ 好瓜 ”这个概念根本就不成立,世界上压根就没有“好瓜”这种东西,我们用Ø表示这个假设。
所以,色泽、根蒂、敲声分别有3、2、2种取值,再加上各自的“通配项”,以及极端情况的Ø,故假设空间规模大小为: ( 3 + 1 ) × ( 2 + 1 ) × ( 2 + 1 ) + 1 = 37 (3+1) \times (2+1) \times(2+1)+ 1 = 37 (3+1)×(2+1)×(2+1)+1=37 。
4.模型评估与选择
(1)过拟合
为了得到在新样本上能表现得很好的学习器,应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”,这样才能在遇到新样本时做出正确的判别。然而如果学习器把训练样本学得“太好”了的时候,很可能已经把训练样本本身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象在机器学习中称为”过拟合“。
(2)评估方法
- 留出法
- 交叉验证法
- 自助法
- 调参与最终模型
(3)性能度量
在预测任务中,给定样例集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋅
⋅
⋅
(
x
m
,
y
m
)
}
D=\left\{ (x_1,y_1),(x_2,y_2),···(x_m,y_m)\right\}
D={(x1,y1),(x2,y2),⋅⋅⋅(xm,ym)},其中
y
i
y_i
yi是示例
x
i
x_i
xi的真实标记。
回归任务最常用的性能度量是“均方误差”
更一般的,对于数据分布
D
D
D和概率密度函数
p
(
⋅
)
p(·)
p(⋅),均方误差可描述为
- 错误率与精度
错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例。 - 查准率、查全率与F1
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例,假正例,真反例,假反例四种情形,令 T P , F P , T N , F N TP,FP,TN,FN TP,FP,TN,FN分别表示其对应的样例数,则显然有 T P + F P + T N + F N = 样 例 总 数 TP+FP+TN+FN=样例总数 TP+FP+TN+FN=样例总数。
查准率 P P P与查全率 R R R分别定义为
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
查准率和查全率是一对矛盾的度量。
F1度量比BEP更加常用,
F 1 = 2 × P × R P + R = 2 × T × P 样 例 总 数 + T P − T N F1=\frac{2\times P\times R}{P+R}=\frac{2\times T\times P}{样例总数+TP-TN} F1=P+R2×P×R=样例总数+TP−TN2×T×P
F 1 F1 F1度量的一般形式 F β F_\beta Fβ,能让我们表达出对查准率/查全率的不同偏好,定义为
F β = ( 1 + β 2 ) P × R ( β 2 × P ) + R F_\beta=\frac{(1+\beta^2)P\times R}{(\beta^2\times P)+R} Fβ=(β2×P)+R(1+β2)P×R
其中 β > 0 \beta>0 β>0度量了查全率对查准率的相对重要性, β = 1 \beta=1 β=1时退化为标准的 F 1 F1 F1; β > 1 \beta>1 β>1时查全率有更大影响; β < 1 \beta<1 β<1时查准率有更大影响。
参考资料
[1].《机器学习》,周志华。