Machine Learning Watermelon Book Blog 1

Chapter One

数据集:所有数据的集合,D={x1, x2, x3..., xn} 表示包含m个示例的数据集。

学习(learning)/训练(training):从训练数据(training data)中学习模型的过程,该过程通常通过某个学习算法完成。

泛化能力(generalization):学得模型适用于新样本的能力。

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好,任何一个有效的机器学习算法必须有其归纳偏好。

奥卡姆剃刀(Occam's razor):普遍用来引导算法确立“正确的”偏好,内容是“若有多个假设与观察一致,则选最简单的那个。”

Chapter Two

1. some conceptions

泛化误差(generalization error):在新样本上的误差。

训练误差(training error)/经验误差(empirical error):学习器在训练集上的误差。

过拟和(overfitting):学的太好之后导致泛化性能下降。

欠拟合(underfitting):对训练样本的一般性质尚未学好。

2. 过拟和,欠拟合

导致过拟合的因素有很多种,最常见的是由于学习能力太过强大,以至于把训练样本所包含的不太一般的特性都学习到了,欠拟合是由学习能力低下所导致的,所有欠拟合比较容易克服。

3. 评估方法

  • 留出法(hand-out)

        将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个为测试集T,在S上训练出模型之后,用T来评估其测试误差,作为泛化误差的估计。

  • 交叉验证法(cross-validation)
  • 自助法(bootstrapping)
  • 调参(paramater tuning)与最终模型

4. 性能度量

性能度量(performance measure):衡量模型泛化能力的评价标准。

查准率(precision):检索出来的条目中准确的占比。

查全率(recall):所有准确的条目检索出来的占比。

平衡点(Break-Even Point,简称BEP):为了在PR图中识别学习器的性能谁更优异,人们设计了一些综合考虑查准率、查全率的性能度量。平衡点就是其中之一,它是查准率=查全率时的取值。平衡点的取值越大,学习器越优。

对于数据集D:

错误率:

2.33后省略

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值