1.1 引言
不愧是西瓜书,刚开始就是西瓜的例子。给出了机器学习的定义,研究如何通过计算的手段,利用经验来改善系统自身的性能。
1.2 基本术语
关于一个事件或对象的描述,称为一个’示例‘或’样本‘;
反映事件或对象在某方面的表现和性质的事项,称为’属性‘或者’特征‘;
属性的取值则称为属性值;
属性张成的空间称为属性空间或输入空间;
对于示例的结果称为’标记‘,有了标记的示例则称为’样例‘(example);
机器学习的两大任务:分类(预测的是离散值)、回归(预测的是连续值);
学习模型适用于新样本的能力称为’泛化‘能力
1.3 假设空间
即所有假设组成的空间
![](https://img-blog.csdnimg.cn/img_convert/f2d449f3e71dc2a0edb91cd91fa34f3e.jpeg)
每种属性都各有三种取值,还需考虑到一个属性的三种取值都符合假设,此外,还需考虑到’好瓜‘这个概念就不存在。所以假设空间的规模大小为4*4*4+1=65。
与训练集一致的假设集合称为’版本空间‘。
2.1 经验误差与过拟合
学习器在训练集上的误差(预测输出与真实输出的差值)称为经验误差,在新样本上的误差称为泛化误差;
而过拟合就是经验误差非常小,但是泛化误差比较大,因为学习器可能将训练集上样本并不一般的特征当成了一般特征,从而在新样本上的表现不好。
2.2评估方法
通常需要一个测试集来评估学习器对新样本的判别能力;对于如何将一个数据集产生出训练集和测试集,有如下几种方法:
2.2.1留出法
直接将数据集拆分成两个互斥的集合
需要注意的问题:1.保证数据分布的一致性
2.一般采用若干次随机划分、重复实验后取平均值作为评估结果
2.2.2 交叉验证法
将数据集划分为k个大小相似的互斥子集,用其中k-1个子集作为训练集,剩下一个作为测试集,这样可以进行k次测试和训练,结果为k次测试的均值。
2.2.3 自助法
自助法是在数据集D中进行重复m次的有放回采样,形成与数据集D样本数量一致的数据集。然后用
作为训练集,D作为测试集。
2.2.4 调参与最终模型
2.3 性能度量
性能度量反映任务需求,不同的性能度量可能导致不同的评估结果。
2.3.1 错误率与精度
错误率是错误的样本占总样本数的比率,精度是正确的样本占总样本数的比例。精度=1-错误率
2.3.2 查准率、查全率与F1
查准率是查出来的正例中真正是正例的比率;
查全率是在所有的正例中查出来的正例所占的比率;
查全率和查准率是一对矛盾的度量
F1是基于查全率和查准率的调和平均;