机器学习笔记-13

listen聲

已于 2024-04-30 16:54:51 修改

阅读量1k

点赞数 21

分类专栏：机器学习文章标签：机器学习笔记人工智能

于 2024-04-30 09:47:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46081986/article/details/138281655

版权

机器学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

机器学习诊断法

机器学习诊断法本质上是一种测试，通过这种测试可以知道机器学习算法哪里出了问题，下一步应该做些什么，如何改进。

1.评估假设

将所有数据分割成两组，一组作为训练集，一组作为测试集，一般按照训练集:测试集=7:3的比例分。

对训练集学习得到参数 $\theta$ ，使用包含得到的参数的假设函数对每个测试集中的样本进行处理从而得到针对于测试集的代价函数即测试误差 $J_{test}(\theta)$ 。

2.模型选择：多项式次数

将数据分为三组：训练集、测试集、验证集。
其中训练集：验证集：测试集=6：2：2。

验证集也叫交叉验证集（Cross Validation）。

选择多项式次数：

列出一系列不同次数的多项式（如下图）；
依次对各个多项式用训练集中的样本拟合出对应的 $\theta$ ；
对所有多项式求出验证集误差；
从这些模型中选出具有最小验证误差的多项式，用测试集作为输入检验此多项式的泛化能力是否出现欠拟合或过拟合现象等等。

总的来说就是在训练集上求出 $\theta$ ，在验证集上求出最好的多项式次数，在测试集上测试泛化。

下图是线性回归的三个集合的误差也就是代价函数：

在这里插入图片描述

$m_{cv}$ 是验证集中样本的数量
$m_{test}$ 是测试集中样本的数量
$m$ 是训练集中样本的数量
$J_{cv}(\theta)$ 是验证集的误差
$J_{test}(\theta)$ 是测试集的误差
$J_{train}(\theta)$ 是训练集的误差也就是我们一直说的 $J(\theta)$

3.诊断偏差(bias)和方差(variance)

当我们运行一个算法但是这个算法不理想时，要么是偏差大要么是方差大，也就是说要么是欠拟合问题要么是过拟合问题，那么怎么诊断是偏差问题还是方差问题呢？

在这里插入图片描述

横轴是拟合的多项式次数，纵轴是误差大小

当是欠拟合(高偏差)问题时，我们可以发现验证误差和训练误差都很大，如上图左侧。

当是过拟合(高方差)问题时，我们可以发现验证误差很大但是训练误差很小，如上图右侧。

4.模型选择：正则化参数

相信大家都已经知道了正则化可以有效的防止过拟合问题，那么正则化是如何影响算法的方差和偏差的呢？

当惩罚项系数 $\lambda$ 特别大的时候， $\theta_i$ 基本都等于0，这时输出的函数相当于 $\theta_0+0$ ，是一条水平线，就会出现高偏差欠拟合的结果。

当惩罚项系数 $\lambda$ 特别小的时候， $\lambda$ 差不多趋于0，这时相当于没有正则化，结果就会出现高方差过拟合的情况。

故而选取一个大小适中的 $\lambda$ 值很重要。

定义以下几个函数：
在这里插入图片描述
选择正则化参数的步骤：

选取一系列 $\lambda$ 值，从 $\lambda=0$ 开始，步长二倍增长， $\lambda=0.01$ 、 $\lambda=0.02$ 、 $\lambda=0.04$ 、 $\lambda=0.08$ … $\lambda=10(.24)$ ，也可以实施小于0.01、大于10的值，此处不予讨论；
求出各个 $\lambda$ 值对应的参数 $\theta$ ；
输入验证集中的样本求出各个模型的验证误差；
选取最小的验证误差的模型。

5.学习曲线(learning curves)

绘制学习曲线可以检查算法是否一切正常、是否可以优化、是否过拟合或欠拟合或两者都有等问题。
在这里插入图片描述

为了绘制一个学习曲线，我们通常先绘制出 $J_{train}(\theta)$ 或者 $J_{cv}(\theta)$ ，将其绘制成横轴为样本总数 $m$ 、纵轴为误差 $error$ 的曲线。

如果算法处于高偏差情况下，增加训练集样本到一定数量后再增加训练集样本不会降低验证误差，增加训练集样本数量对改进算法没有用。
此时的学习曲线：

如果算法处于高方差情况下，一直增加训练集样本数量可以降低验证误差，增加训练集样本数量对改进算法有用。
此时的学习曲线：

所以当我们想要改进算法时可以绘制出学习曲线看看是发生了高方差问题还是高偏差问题异或是两者都有，这样可以针对于具体问题改进我们的算法。

6.总结
在这里插入图片描述
方法：

增加训练样本
选取更少的特征值
选取更多的特征值
增加多项式次数
减小正则化系数
增大正则化系数

当处于高方差(过拟合)问题时：可以尝试1、2、6。
当处于高偏差(欠拟合)问题时：可以尝试3、4、5。

7.扩展：和神经网络之间的联系

在这里插入图片描述
单层神经网络：计算量小但容易出现欠拟合现象。
多层神经网络：计算量大容易出现过拟合现象，但是通常性能比较好。
使用正则化后的多层比单层受欢迎。

选择隐藏层层数和隐藏单元数量可以使用上面讲的模型选择方法，将样本分为训练集、验证集、测试集，选出最优解。

关注

21
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
机器学习笔记-13

机器学习诊断法与模型选择
复制链接

扫一扫

专栏目录

listen聲 CSDN认证博客专家 CSDN认证企业博客

码龄4年

27: 原创

1万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

666: 积分

315: 粉丝

394: 获赞

14: 评论

292: 收藏

私信

关注

热门文章

分类专栏

语言学习 9篇
python 3篇
环境配置 1篇
机器学习 23篇
sqlmap 1篇

最新评论

机器学习笔记-19
CSDN-Ada助手: 恭喜您发布了第20篇博客《机器学习笔记-19》，持续创作不易，您的努力和坚持可嘉。希望在未来的创作中，能够更加深入地探讨机器学习领域的知识，也可以尝试结合实际案例进行分析和分享，让读者更易于理解和应用。期待您的下一篇作品，加油！
机器学习笔记-17
CSDN-Ada助手: 恭喜你第18篇博客《机器学习笔记-17》的发布！看来你在机器学习领域的知识储备越来越丰富了呢。不过在未来的创作中，或许可以尝试结合实际案例或者深入探讨某一具体算法的原理，让读者能更深入地理解和应用所学的知识。期待你在下一篇博客中的精彩表现！继续加油！
机器学习笔记-16
2401_84435016: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
机器学习笔记-15
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
机器学习笔记-18
CSDN-Ada助手: 恭喜您发布了第19篇博客《机器学习笔记-18》！继续保持写作的热情和耐心，坚持分享您的学习心得和经验是非常有价值的。或许在下一篇博客中，您可以尝试深入探讨某个机器学习算法的原理及应用，或者分享一些实际案例的分析和解决方法，这样能够更好地帮助读者理解和应用机器学习知识。期待您的下一篇作品！加油！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。