机器学习中的欠拟合和过拟合

最新推荐文章于 2024-06-14 15:41:28 发布

tigerlib

最新推荐文章于 2024-06-14 15:41:28 发布

阅读量551

点赞数

分类专栏： machine learning 文章标签：欠拟合和过拟合机器学习正则化

本文链接：https://blog.csdn.net/weixin_44695969/article/details/97522689

版权

18 篇文章 0 订阅

订阅专栏

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)
欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)
近似误差（训练误差）：如果近似误差过小可能会出现过拟合的现象，对现有的训练集能有很好的预测，但是对未知的测试样本将会出现较大偏差的预测。针对训练集，模型本身不是最接近最佳模型。
估计误差（测试误差）：针对测试集，估计误差小说明对未知数据的预测能力好，模型本身最接近最佳模型。

1）添加其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征”等等，都可以作为特征添加的首选项。
2）添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

原因：原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点

在学习的时候，数据提供的特征有些影响模型复杂度或者这个特征的数据异常点较多，所以算法在学习的时候尽量减少这个特征的影响（甚至删除某个特征的影响），这就是正则化。
在这里插入图片描述
注：调整时候，算法并不知道某个特征影响，而是去调整参数得出优化的结果

L1正则化
作用：可以使得其中一些W的值直接为0，删除这个特征的影响
LASSO回归
L2正则化
作用：可以使得其中一些W的都很小，都接近于0，削弱某个特征的影响
优点：越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象
Ridge回归（岭回归）

关注