机器学习1-2章

1.1 引言

不愧是西瓜书,刚开始就是西瓜的例子。给出了机器学习的定义,研究如何通过计算的手段,利用经验来改善系统自身的性能。

1.2 基本术语

关于一个事件或对象的描述,称为一个’示例‘或’样本‘;

反映事件或对象在某方面的表现和性质的事项,称为’属性‘或者’特征‘;

属性的取值则称为属性值;

属性张成的空间称为属性空间或输入空间;

对于示例的结果称为’标记‘,有了标记的示例则称为’样例‘(example);

机器学习的两大任务:分类(预测的是离散值)、回归(预测的是连续值);

学习模型适用于新样本的能力称为’泛化‘能力

1.3 假设空间

即所有假设组成的空间

每种属性都各有三种取值,还需考虑到一个属性的三种取值都符合假设,此外,还需考虑到’好瓜‘这个概念就不存在。所以假设空间的规模大小为4*4*4+1=65。

与训练集一致的假设集合称为’版本空间‘。

2.1 经验误差与过拟合

学习器在训练集上的误差(预测输出与真实输出的差值)称为经验误差,在新样本上的误差称为泛化误差;

而过拟合就是经验误差非常小,但是泛化误差比较大,因为学习器可能将训练集上样本并不一般的特征当成了一般特征,从而在新样本上的表现不好。

2.2评估方法

通常需要一个测试集来评估学习器对新样本的判别能力;对于如何将一个数据集产生出训练集和测试集,有如下几种方法:

2.2.1留出法

直接将数据集拆分成两个互斥的集合

需要注意的问题:1.保证数据分布的一致性

2.一般采用若干次随机划分、重复实验后取平均值作为评估结果

2.2.2 交叉验证法

将数据集划分为k个大小相似的互斥子集,用其中k-1个子集作为训练集,剩下一个作为测试集,这样可以进行k次测试和训练,结果为k次测试的均值。

2.2.3 自助法

自助法是在数据集D中进行重复m次的有放回采样,形成与数据集D样本数量一致的数据集。然后用

作为训练集,D作为测试集。

2.2.4 调参与最终模型

2.3 性能度量

性能度量反映任务需求,不同的性能度量可能导致不同的评估结果。

2.3.1 错误率与精度

错误率是错误的样本占总样本数的比率,精度是正确的样本占总样本数的比例。精度=1-错误率

2.3.2 查准率、查全率与F1

查准率是查出来的正例中真正是正例的比率;

查全率是在所有的正例中查出来的正例所占的比率;

查全率和查准率是一对矛盾的度量

F1是基于查全率和查准率的调和平均;

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值