西瓜书第一二章笔记

最新推荐文章于 2024-07-25 20:04:10 发布

Growing Sea

最新推荐文章于 2024-07-25 20:04:10 发布

阅读量118

点赞数

分类专栏：西瓜书文章标签：机器学习

原文链接：https://blog.csdn.net/sp_programmer/article/details/41749859

版权

西瓜书专栏收录该内容

1 篇文章 0 订阅

订阅专栏

样本/示例：一个事件或者对象，这里的是一个西瓜

属性/特征：事件或者对象的某方面的表现或性质，比如西瓜的色泽，根蒂，敲声

属性值：属性的取值，比如色泽属性可以取青绿、乌黑

属性空间/样本空间/输入空间：整个属性张成的空间，比如把上述的三个属性在一个三维坐标中表示出

一个西瓜的三位空间，每一个西瓜都可以在在这个空间中找到自己的位置。

特征向量：空间中的每一个点都对应一个坐标向量，所以每一个样本也可以称为特征向量

训练数据：用于训练的数据

训练样本：训练数据中的每一一个样本

标记空间/输出空间：所有输出的集合

分类：预测的是离散值

回归：预测的是连续值

二分类：只涉及两个类别的任务，其中一个称为正类，另一个为负类

多分类：

聚类：训练集中的样本分成若干个组，每一组称为一个‘簇’

监督学习：有标记信息，（分类，回归）

无监督学习：无标记信息（聚类）

泛化能力：学得的模型能够适用于新样本的能力

假设空间

归纳：从特殊到一般（广义归纳：相当于从样本中学习。狭义归纳：从训练集中学的概念，因此称为概念学习）

演绎：从一般到特殊

概念学习：最基本的就是布尔概念学习

假设集合/版本空间：有多个假设与训练集一致，即与训练集一致

没有免费的午餐定理NFL：所有的学习算法总误差和期望值与算法无关。

过拟合：把训练样本的一些自身特点当做了所有样本的都具有的一般性质

欠拟合：对训练样本的一般性质尚未学好

任何学习算法都有针对过拟合的措施，但过拟合是无法完全避免的。

证明过拟合无法避免：

[P].[NP] 的概念参考：

https://blog.csdn.net/sp_programmer/article/details/41749859

1.机器学习面临的是一个NP或更难的问题，即∃NP；

2.有效的算法需在多项式时间内运行完成，即∃P；

3.当可彻底避免过拟合时，通过最小化经验误差就可获得最优解，即P=NP；

4.但实际上P≠NP；

5.过拟合无法避免。

评估误差的方法:

通过对模型的泛化误差进行评估，选择泛化误差最小的

泛化误差只能通过模型测试集上的测试误差求得

训练集与测试集应互斥

对数据集的划分方法

留出法：直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，即D=S∪T，S∩*T=*∅。

特点：

1.直接划分数据

2.数据划保持数据分布的一致性，避免因数据划分引入额外的偏差—>训练集和测试集分层采样

3.保证数据的稳定性->若干次随机划分数据集，重复进行试验评估后取平均值

交叉验证法：先将数据集D分为k个大小相似的互斥子集，即D=D1∪D2∪*…∪Dk*；Di∩Dj=∅（i≠j）

交叉验证法得到的结果是均值的均值，即p个“k个结果的均值”的均值，因此交叉验证法又可以叫做p次k折交叉验证。

特点：

这样做每个子集都会当测试集，这样得到的结果更加准确。

极限情况下，每次都只取一个样本当测试集，这会大大正真加宝贵的计算资源负担

自助法：对有m个样本的数据集D，按如下方式采样产生数据集D’：每次随机取一个样本拷贝进D’，取m次（有放回取m次）。

按此方法，保证了D’和D的规模一致。但D’虽然也有m个样本，可其中中会出现重复的样本，而D中会存在*D’*采样没有采到的样本，这些样本就留作测试集。

某样本在m次采样中均不会被采到的概率是： [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aob1If2r-1626185710679)(https://www.zhihu.com/equation?tex=%281-1%2Fm%29%5Em)] ，取极限可得0.368

特点：

训练集与数据集规模一致；数据集小、难以有效划分训练集和测试集时效果显著；能产生多个不同的训练集；

缺点：改变了训练集的样本分布，引入估计偏差。所以对于数量大的数据集还是采用留出法和交叉验证法比较合适

超参数设定的不同会影响最终模型的性能

测试集：来测试模型的泛化性能，

在训练集中划分一部分数据作为验证集，基于验证集上的性能来进行模型选择和调参。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
西瓜书第一二章笔记

样本/示例：一个事件或者对象，这里的是一个西瓜属性/特征：事件或者对象的某方面的表现或性质，比如西瓜的色泽，根蒂，敲声属性值：属性的取值，比如色泽属性可以取青绿、乌黑属性空间/样本空间/输入空间：整个属性张成的空间，比如把上述的三个属性在一个三维坐标中表示出一个西瓜的三位空间，每一个西瓜都可以在在这个空间中找到自己的位置。特征向量：空间中的每一个点都对应一个坐标向量，所以每一个样本也可以称为特征向量训练数据：用于训练的数据训练样本：训练数据中的每一一个样本标记空间/输出空间：所有输出的集合
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。