第六周：概念补充

铁血阿张

于 2020-04-05 20:36:20 发布

阅读量189

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43618989/article/details/105332049

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

概念补充

1 偏差和方差

1.1 偏差和方差的定义

一个集成模型(f)在未知数据集(D)上的泛化误差E(f;D)，由方差(var)，偏差(bais)和噪声(ε)共同决定。
在这里插入图片描述

下面的图像，每个点就是集成算法中的一个基评估器产生的预测值。红色虚线代表着这些预测值的均值，而蓝色的线代表着数据本来的面貌。

偏差：模型的预测值与真实值之间的差异，即每一个红点到蓝线的距离。在集成算法中，每个基评估器都会有自己的偏差，集成评估器的偏差是所有基评估器偏差的均值。模型越精确，偏差越低。
方差：反映的是模型每一次输出结果与模型预测值的平均水平之间的误差，即每一个红点到红色虚线的距离，衡量模型的稳定性。模型越稳定，方差越低。

1.2 模型泛化误差

通常来说，方差和偏差有一个很大，泛化误差都会很大。然而，方差和偏差是此消彼长的，不可能同时达到最小值。这个要怎么理解呢？来看看下面这张图：
在这里插入图片描述

1.3 偏差与方差的权衡

关于解决方差和偏差的问题中：

我们要知道偏差和方差是无法完全避免的，只能尽量减少其影响。

在避免偏差时，需尽量选择正确的模型，一个非线性问题而我们一直用线性模型去解决，那无论如何，高偏差是无法避免的。
有了正确的模型，我们还要慎重选择数据集的大小，通常数据集越大越好，但大到数据集已经对整体所有数据有了一定的代表性后，再多的数据已经不能提升模型了，反而会带来计算量的增加。而训练数据太小一定是不好的，这会带来过拟合，模型复杂度太高，方差很大，不同数据集训练出来的模型变化非常大。
最后，要选择合适的模型复杂度，复杂度高的模型通常对训练数据有很好的拟合能力。

其实在机器学习领域，主要的挑战来自方差。处理高方差的手段有：

降低模型复杂度
减少数据维度；降噪
增加样本数
使用验证集

2 模型正则化

可参照第四周：线性回归.

2.1 L1正则化

所谓的L1正则化，就是在目标函数中加了L1范数这一项。使用L1正则化的模型叫做LASSO回归。

为什么L1正则化具有稀疏性：

所谓稀疏性，说白了就是模型的很多参数是0。通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，很多参数是0，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，即使去掉对模型也没有什么影响，此时我们就可以只关注系数是非零值的特征。

这相当于 对模型进行了一次特征选择，只留下一些比较重要的特征，提高模型的泛化能力，降低过拟合的可能。

从解空间形状来考虑：
在这里插入图片描述

而如果选择点Q，在直角的顶点上，对应的参数θ1=0，这就体现了稀疏性。因此L1正则化会产生系数模型，好处是应用的特征比较小，模型更简单，运算更快。

由此可见：加入L1正则项相当于倾向将参数向离原点近的方向去压缩。直观上来说，就是加上正则项，参数空间会被缩小，意味着模型的复杂度会变小。

2.2 L2正则化

除了如L1正则化一般，将参数累加以外，很自然地联想到，我们也可以用平方和来做正则项。
在这里插入图片描述

参考：公众号-数据科学家联盟

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。