西瓜书 第一二章笔记

样本/示例:一个事件或者对象,这里的是一个西瓜

属性/特征:事件或者对象的某方面的表现或性质,比如西瓜的色泽,根蒂,敲声

属性值:属性的取值,比如色泽属性可以取青绿、乌黑

属性空间/样本空间/输入空间:整个属性张成的空间,比如把上述的三个属性在一个三维坐标中表示出

一个西瓜的三位空间,每一个西瓜都可以在在这个空间中找到自己的位置。

特征向量:空间中的每一个点都对应一个坐标向量,所以每一个样本也可以称为特征向量

训练数据:用于训练的数据

训练样本:训练数据中的每一一个样本

标记空间/输出空间:所有输出的集合

分类:预测的是离散值

回归:预测的是连续值

二分类:只涉及两个类别的任务,其中一个称为正类,另一个为负类

多分类:

聚类:训练集中的样本分成若干个组,每一组称为一个‘簇’

监督学习:有标记信息,(分类,回归)

无监督学习:无标记信息(聚类)

泛化能力:学得的模型能够适用于新样本的能力

假设空间

归纳:从特殊到一般(广义归纳:相当于从样本中学习。狭义归纳:从训练集中学的概念,因此称为概念学习)

演绎:从一般到特殊

概念学习:最基本的就是布尔概念学习

假设集合/版本空间:有多个假设与训练集一致,即与训练集一致

没有免费的午餐定理NFL:所有的学习算法总误差和期望值与算法无关。

过拟合:把训练样本的一些自身特点当做了所有样本的都具有的一般性质

欠拟合:对训练样本的一般性质尚未学好

任何学习算法都有针对过拟合的措施,但过拟合是无法完全避免的。

证明过拟合无法避免:

[P].[NP] 的概念参考:

https://blog.csdn.net/sp_programmer/article/details/41749859

1.机器学习面临的是一个NP或更难的问题,即∃NP;

2.有效的算法需在多项式时间内运行完成,即∃P;

3.当可彻底避免过拟合时,通过最小化经验误差就可获得最优解,即P=NP;

4.但实际上P≠NP;

5.过拟合无法避免。

评估误差的方法:

通过对模型的泛化误差进行评估,选择泛化误差最小的

泛化误差只能通过模型测试集上的测试误差求得

训练集与测试集应互斥

对数据集的划分方法

留出法:直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D=STS∩*T=*∅。

特点:

1.直接划分数据

2.数据划保持数据分布的一致性,避免因数据划分引入额外的偏差—>训练集和测试集分层采样

3.保证数据的稳定性->若干次随机划分数据集,重复进行试验评估后取平均值

交叉验证法:先将数据集D分为k个大小相似的互斥子集,即D=D1D2∪*…Dk*;Di∩Dj=∅(i≠j)

交叉验证法得到的结果是均值的均值,即p个“k个结果的均值”的均值,因此交叉验证法又可以叫做p次k折交叉验证

特点:

这样做每个子集都会当测试集,这样得到的结果更加准确。

极限情况下,每次都只取一个样本当测试集,这会大大正真加宝贵的计算资源负担

自助法:对有m个样本的数据集D,按如下方式采样产生数据集D’:每次随机取一个样本拷贝进D’,取m次(有放回取m次)。

按此方法,保证了D’D的规模一致。但D’虽然也有m个样本,可其中中会出现重复的样本,而D中会存在*D’*采样没有采到的样本,这些样本就留作测试集。

某样本在m次采样中均不会被采到的概率是: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aob1If2r-1626185710679)(https://www.zhihu.com/equation?tex=%281-1%2Fm%29%5Em)] ,取极限可得0.368

特点:

训练集与数据集规模一致;数据集小、难以有效划分训练集和测试集时效果显著;能产生多个不同的训练集;

缺点:改变了训练集的样本分布,引入估计偏差。所以对于数量大的数据集还是采用留出法和交叉验证法比较合适

超参数设定的不同会影响最终模型的性能

测试集:来测试模型的泛化性能,

在训练集中划分一部分数据作为验证集,基于验证集上的性能来进行模型选择和调参。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值