理解正则化(regularization)(贝叶斯角度还不清楚)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zhiwei2coder/article/details/80260266

几种解读方式

Loss=Lemp+λR(W)
其中Lemp为经验风险,由已知(训练)数据得到,第二项为正则项。
- 结构风险最小化:结构风险(structure risk)对应于经验风险(empirical risk)。在选择最优模型过程中,我们希望模型不仅能够很好地预测训练数据,更希望它能够很好地预测未参与训练的测试数据。前者对应于最小化经验风险,后者对应于最小化结构风险。结构风险与模型复杂度正相关,所以加正则项的本质是减小模型的复杂度。

  • 防止过拟合:添加正则化项相当于添加惩罚项,趋向于让模型复杂度降低,可以防止过拟合。

  • 奥卡姆剃刀:在左右满足约束的模型中,能够很好地解释已知数据并且十分简单的模型才是最好的模型。

  • 贝叶斯角度:正则项对应于模型的先验概率,我们可以假设复杂模型具有比较大的先验概率,简单的模型有较小的先验概率。????

左边为L1,右边为L2

L1正则

原理

Lasso回归: R(W)=|W|
L1 会让结果变得稀疏,很多元素为0,少数不为0。原因是对参数求导的结果是常数,总有一天会减小,【L1并非连续可导!】
红色和蓝色等高线相交的地方就是最优解。在右图中,蓝色等高线有更大的概率和边角相交,在图中改点为(0,w2),如W的维度增加,则为零的项会更多。所以,L1倾向于让大部分的参数为0,少数参数不为0。

求解

  • L1并非连续可导,需要通过其他方式求解最优解

    • 坐标下降( 此方法不需要计算梯度,但是每次迭代都需要O(mn)的计算量(m为样本数,n为X的维度数))
      1. 取初始点 X=(x0,x1,..,xn)
      2. 固定除 xi以外的其他维度,求x^i 最小化目标函数
      3. i=i+1,i<n, 回到2
    • 最小角回归 (LARS):
      当θ只有2维时,例子如上图,和Y最接近的是X1,首先在X1上面走一段距离,一直到残差在X1和X2的角平分线上,此时沿着角平分线走,直到残差最够小时停止,此时对应的系数β即为最终结果。
      最小角回归法是一个适用于高维数据的回归算法,其主要的优点有:
      1)特别适合于特征维度n 远高于样本数m的情况。
      2)算法的最坏计算复杂度和最小二乘法类似,但是其计算速度几乎和前向选择算法一样
      3)可以产生分段线性结果的完整路径,这在模型的交叉验证中极为有用
      主要的缺点是: 由于LARS的迭代方向是根据目标的残差而定,所以该算法对样本的噪声极为敏感。

L2正则

原理

Ridge回归:R(W)=||W||2

  • 因为过拟合的时候, 拟合函数需要顾忌每一个点, 最终形成的拟合函数波动很大, 在某些很小的区间里, 函数值的变化很剧烈, 也就是某些w非常大. 为此, L2正则化的加入就惩罚了权重变大的趋势,它倾向于让权重减小

求解

  • L2 二阶连续可导,所以还可以用梯度下降、牛顿法、拟牛顿法等方法求解
展开阅读全文

没有更多推荐了,返回首页