《机器学习》西瓜书学习笔记

MichaelSkyer

于 2018-07-22 17:37:16 发布

阅读量604

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ysk951017/article/details/81156155

版权

第2章评估模型与选择

2.1 经验误差与过拟合

1.错误率：分类错误的样本数占样本总数的比例

2.精度： 1-错误率

3.误差：学习器的实际预测输出与样本的真实输出之间的差异

4.训练误差（经验误差）：学习器在训练集上的误差

5.泛化误差：学习器在新样本上的误差

6.欠拟合比较容易克服，例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等，而过拟合则是机器学习面临的关键障碍。

2.2 评估方法

1.通过实验测试来对学习器的泛化误差进行评估，进而作出选择。需要使用测试集来测试学习器对新样本的判别能力，然后以测试集上的测试误差作为泛化误差的近似。（测试误差实际上是泛化误差的估计！）

2.通常假设测试样本也是从样本真实分布中独立同分布采样而得。

3.测试集应该尽可能与训练集互斥

4.训练集和测试集的划分方法包括留出法、交叉验证法、自助法等

5.从采样的角度看待数据的划分过程，将保留类别比例的采样方式通常称为“分层采样”

6.单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。

7.测试集小时，评估结果的方差较大；训练集小时，评估结果的偏差较大。一般用2/3～4/5的样本用作训练。

8.交叉验证每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，从而可以进行k组训练和测试，最终返回这k个测试结果的均值。因此交叉验证法称为k折交叉验证，且通常要随机使用不同的划分重复p次，最终的评估结果是这p次k折交叉验证结果的均值，常见的有10次10折交叉验证。

9.留一法（LOO）是交叉验证法的特例，k=m，则不受随机样本划分方式的影响，其评估结果被认为比较准确，但数据集比较大时其计算开销过大。

10.自助法（bootstrapping）以自助采样法为基础，有放回的抽样方法形成训练集，约有36.8%的初始数据集始终未在训练集中出现用于测试，称为包外估计。自助法更适合于初始数据量不足的情况。

11.机器学习参数包括超参数和模型参数两种，超参数是算法参数数目较少，而模型参数数量可能很多，两者调参方式相似，均是产生多个模型之后基于某种评估方法来进行选择；不同之处在于前者通常是由人工设定多个参数候选值后产生模型，而后者则是通过学习来产生多个候选模型。

2.3 性能度量

1.错误率：分类错误的样本数占样本总数的比例

2.精度：分类正确的样本数占样本总数的比例

3.查准率（准确率）P P=TP/TP+FP

4.查全率（召回率）R R=TP/TP+FN

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《机器学习》西瓜书学习笔记

第2章评估模型与选择2.1 经验误差与过拟合1.错误率：分类错误的样本数占样本总数的比例2.精度： 1-错误率3.误差：学习器的实际预测输出与样本的真实输出之间的差异4.训练误差（经验误差）：学习器在训练集上的误差5.泛化误差：学习器在新样本上的误差6.欠拟合比较容易克服，例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等，而过拟合则是机器学习面临的关键障碍...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。