机器学习基石-Regularization

最新推荐文章于 2024-02-22 17:02:09 发布

遇见更好的自己

最新推荐文章于 2024-02-22 17:02:09 发布

阅读量378

点赞数 1

分类专栏：机器学习台大林轩田机器学习课程笔记文章标签：机器学习

本文链接：https://blog.csdn.net/yc1203968305/article/details/78617990

版权

机器学习同时被 2 个专栏收录

42 篇文章 2 订阅

订阅专栏

台大林轩田机器学习课程笔记

27 篇文章 5 订阅

订阅专栏

大纲

这里写图片描述

Regularized Hypothesis Set

1 Regularization

这里写图片描述

我们做regularization的目的就是从高维的假设空间倒退回低维的假设空间

2 Stepping Back as Constraint

我们从高维到低维倒退，可以将高阶部分的权重置为0，这样相当于在原假设的基础上加上了约束

这里写图片描述

3 Regression with Looser Constraint

刚刚我们讨论的限制是H10高阶部分的权重w限制为0，这是比较苛刻的一种限制。下面，我们把这个限制条件变得更宽松一点，即令任意8个权重w为0，并不非要限定 $w_{3}=w_{4}=⋯=w_{10}=0$ ，这个Looser Constraint可以写成：
这里写图片描述

也就只是限定了w不为0的个数，并不限定必须是高阶的w。这种hypothesis记为 $H′_2$ ，称为sparse hypothesis set，它与 $H_2$ 和 $H_{10}$ 的关系为：

H 2 \in H' 2 \in H 10

$H_2 \in H′_2 \in H_{10}$

more flexible than $H_2$
less risky than $H_{10}$

对于这种sparse hypothesis set的约束问题求解，是一种NP难问题

4 Regression with Softer Constraint

这里写图片描述

我们进一步放松约束条件，也就是说，所有的权重w的平方和的大小不超过C，我们把这种hypothesis sets记为H(C)

$H(C)$ 和 $H′_2$ 有交集，但不精确相等
当 $C \ge 0$ 时，限定的范围越大，越宽松
$H (0) \in H (1.126) \in . . . . . . \in H (1126) \in . . . \in H (\infty) = H 10$ $H(0) \in H(1.126) \in ......\in H(1126) \in ... \in H(\infty) = H_{10}$

当C无限大的时候，即限定条件非常宽松，相当于没有加上任何限制，就与H10没有什么两样。H(C)称为regularized hypothesis set，这种形式的限定条件是可以进行求解的，我们把求解的满足限定条件的权重w记为 $w_{REG}$ 。接下来就要探讨如何求解 $w_{REG}$ 。

Weight Decay Regularization

1 Matrix Form of Regularized Regression Problem

这里写图片描述

2 The Lagrange Multiplier

下图描述了如何引入拉格朗日乘子

这里写图片描述

如上图所示，假设在空间中的一点w，根据梯度下降算法，w会朝着 $−∇E_{in}$ 的方向移动（图中蓝色箭头指示的方向），在没有限定条件的情况下，w最终会取得最小值 $w_{lin}$ ，即“谷底”的位置。现在，加上限定条件，即w被限定在半径为 $\sqrt{C}$ 的圆内，w距离原点的距离不能超过圆的半径，球如图中红色圆圈所示 $w^Tw$ =C。那么，这种情况下，w不能到达 $w_{lin}$ 的位置，最大只能位于圆上，沿着圆的切线方向移动（图中绿色箭头指示的方向）。与绿色向量垂直的向量（图中红色箭头指示的方向）是圆切线的法向量，即w的方向，w不能靠近红色箭头方向移动。那么随着迭代优化过程，只要−∇Ein与w点切线方向不垂直，那么根据向量知识，−∇Ein一定在w点切线方向上有不为零的分量，即w点会继续移动。只有当 $−∇E_{in}$ 与绿色切线垂直，即与红色法向量平行的时候， $−∇E_{in}$ 在切线方向上没有不为零的分量了，也就表示这时w达到了最优解的位置。

随意我们可以导出最优解满足的性质

\nabla E i n (w R E G) + 2 λ N w R E G = 0

$∇E_{in}(w_{REG}) + \frac{2\lambda}{N}w_{REG} = 0$

其中 $\lambda$ 是拉格朗日乘子，乘以一个 $\frac{2}{N}$ 是为了方便公式推导

3 Augment Error

现在假设是线性回归的情况，我们可以把线性回归的 $∇E_{in}$ 代入，则有

当 $\lambda \ge 0$ 时，

2 N (Z T Z w R E G - Z T y) + 2 λ N w R E G = 0

$\frac{2}{N}(Z^TZw_{REG}-Z^Ty)+\frac{2\lambda}{N}w_{REG}=0$
进一步，导出最优解为

w R E G = (Z T Z + λ I) - 1 Z T y

$w_{REG} = (Z^TZ+\lambda I)^{-1}Z^Ty$
我们注意到

ZTZ $Z^TZ$ 是半正定矩阵，加上一个正定矩阵，所以juzhen

(ZTZ+λI) $(Z^TZ+\lambda I)$ 一定正定，而且可逆，所以解

wREG $w_{REG}$ 一定存在。统计学上称Ridge Regression

对于一般的假设， $∇E_{in}$ 不是线性的，代入方程之后是一个非线性方程， $w_{REG}$ 不易求解,我们可以从另一个角度看待这个方程

已知 $∇E_{in}$ 是 $E_{in}$ 对 $w_{REG}$ 的导数，而 $\frac{2λ}{N}w_{REG}$ 也可以看成是 $\frac{λ}{N}w_{REG}^2$ 的导数。那么平行等式左边可以看成一个函数的导数，导数为零，即求该函数的最小值。也就是说，问题转换为最小化该函数：

E i n (w) + λ N w 2

$E_{in}(w) + \frac{λ}{N}w^2$

我们把这个函数称之为Augment Error

4 Result

这里写图片描述

$\lambda$ 过大过小都不合适， $\lambda$ 需要根据具体的数据进行交叉验证得到
$\lambda$ 大的时候，对应限制条件 $C$ 比较小，倾向于选择简单的模型

事实上，这种regularization不仅可以用在多项式的hypothesis中，还可以应用在logistic regression等其他hypothesis中，都可以达到防止过拟合的效果。

Regularization and VC Theory

1 Another View of Augmented Error

这里写图片描述

Augmented Error

E a u g (w) = E i n (w) + λ N w 2

$E_{aug}(w) = E_{in}(w) + \frac{λ}{N}w^2$
其中

λNw2 $\frac{λ}{N}w^2$ 表示的是单个Hypothesis的复杂度

VC Bound

E o u t (w) \leq E i n (w) + Ω (H)

$E_{out}(w) \leq E_{in}(w) + \Omega(H)$
其中

Ω(H) $\Omega(H)$ 表示的是整个假设空间的复杂度

$\Omega(w) \in \Omega(H)$ ,所以 $E_{aug}(w)$ 比 $E_{in}(w)$ 更接近 $E_{out}(w)$ 。所以 $E_{aug}(w)$ 更能代表 $E_{out}(w)$

2 Effective VC Dimension

这里写图片描述

根据VC Dimension理论，整个hypothesis set的 $d_{VC}=\tilde{d}+1$ ，这是因为所有的w都考虑了，没有任何限制条件。而引入限定条件的 $d_{VC}(H(C))=d_{EFF}(H,A)$ ，即有效的VC dimension。也就是说， $d_{VC}(H)$ 比较大，因为它代表了整个hypothesis set，但是 $d_{EFF}(H,A)$ 比较小，因为由于regularized的影响，限定了w只取一小部分。其中A表示regularized算法。

General Regularizers

1 General Regularizers

L2 Regularizers
L1 Regularizers

这里写图片描述

2 The Optimal $\lambda$

这里写图片描述

从上图我们可以看出，噪声越大，所需要的 $\lambda$ 也越大，但我们往往不知道噪声的大小，所以我们需要通过交叉验证选取最优的 $\lambda$

遇见更好的自己

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石-Regularization

大纲Regularized Hypothesis Set1 Regularization我们做regularization的目的就是从高维的假设空间倒退回低维的假设空间2 Stepping Back as Constraint我们从高维到低维倒退，可以将高阶部分的权重置为0，这样相当于在原假设的基础上加上了约束3 Regression with Looser Constraint刚刚我们讨论的限
复制链接

扫一扫