西瓜书一,二章笔记

一 绪论

1.1 基本术语

样本/示例:每天记录是关于一个事件或对象的描述

属性/特征:反映事件或对象在某方面的表现或性质的事项

  • 属性值:属性上的取值

  • 维数:属性的个数

样本空间/属性空间:属性张成的空间

1.2 归纳偏好

大佬说跳过,之后再看

二 模型评估与选择

2.1 误差与拟合

误差

  • 训练误差/经验误差:学习器在训练集上的误差
  • 泛化误差:在新样本上的误差(显然希望得到泛化误差小的学习器)

拟合(好的学习器应尽可能的从训练样本中学出适用于所有潜在样本的“普遍规律”)

  • 过拟合:把样本自身的特点当做所有潜在样本的一般性质导致泛化能力下降 (学习能力强大导致的)
  • 欠拟合:对训练样本的一般性质尚未学好 (学习能力低下导致的)

过拟合是机器学习面临的关键障碍,而且无可避免,只能“缓解”(P≠NP)

2.2 数据集分类方法

测试集训练集应该尽可能的互斥

2.2.1 留出法

直接将数据集D划分为两个互斥的集合,一个作为训练集S,一个作为测试集T

划分比例:一般为2/3~4/5的样本用于训练

2.2.2 交叉验证法

将数据集D划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的作为测试集

通常把交叉验证法称为“k折交叉验证”,k最常用值是10,其他常用值为5,20等

在这里插入图片描述

2.2.3 自助法

2.3 性能与度量

2.3.1 回归任务

要评估学习器的性能就要把学习器预测结果与真实标记进行比较

回归任务最常用的性能度量是 均方误差

E ( f : D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f:D)=\frac{1}{m}\sum_{i=1}^{m}{(f(x_i) - y_i)^2} E(f:D)=

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值