MachineLearning(Hsuan-Tien Lin)第十四讲

本文详细介绍了机器学习中的正则化技术,特别是权重衰减(Weight Decay Regularization)。通过实例解释了如何从过度复杂的模型退化到更简单的模型,以及正则化的数学原理和优化问题。内容涵盖了约束条件对模型的影响,正规项在防止过拟合中的作用,以及正则化选择和λ参数的选取策略。
摘要由CSDN通过智能技术生成

Regularization

今天主要讲regulation。(在Andrew的week3(下)也讲到了,可以比较下。)

Regulation是解决overfit的办法。

问题提出

上一讲说到如果对下图中的点做回归的时候,目标函数是个二次多项式,但是你用一个四次多项式来做,结果overfit。

我们开始不知道目标函数是二次,但是做出四次函数后,发现模型太复杂了,发生了overfit,这时就要想办法退回去。比如退到三次函数,如果还是overfit就再退,退到二次,再看有没有overfit。

十二讲说的Structured Hypothesis Sets,多项式的h之间有包含关系,后面的h会包含前面的。这是不是给我们退回去一些启发?

怎么退回去呢?用regulation。

我们举从10次多项式退回到2次多项式的例子。

观察这两个h,发现h2包含在h10中,当w3-w10都是0的时候,h10就是h2。所以,如果要想h10退回到h2,也只要把后面的系数都变成0,即加上限制wi=0,i=3……10。

我们做回归的时候,参数w,是用成本函数来求,如10次的成本函数:

现在我们想退到2次的函数,我们就在求10次函数的参数的时候,加上限制,把后面的参数都限制为0。 

你会问,这么麻烦,干脆直接用二次的不就行了吗?实际上,如前面所说,我们并不知道目标函数是二次的,所以也不可能把w3之后都设成0。我们只知道模型太复杂了,那就希望参数少些,比如根据经验觉得最多三个参数应该就可以了。于是,我们把求h2变成求h2’。

h2’比h2灵活,它没有规定哪三个参数留下,它又比h10简单,最多只留了三个参数。

但是,决定最多留三个参数被证明是个NP-hard。

所以,对w条件放更宽些,可以都留下,但是它们的值不能太大。设置一个值C,规定参数的平方和不能超过C。

如果C设置很大很大,那就相当于没约束,最后求出的就是10次函数;如果C设置很小很小,有一些参数就会被迫为0。H(C)会把h2’包括进来,如果C设置的刚好,就留下了三个参数,那么H(C)=h2’。用H(C)的方式求出的w叫

Weight Decay Regularization

通过上面的分析,把求h变为如下优化问题:

说到这里,不得不感慨一下数学的无处不在的魅力。上面的模型就是最优化问题中“有约束非线性优化问题”。目的是求出使Ein最小的w,且w受限制。S.t.就是subject to,约束条件,即这里的正规项。在没有正规项之前,我们前面说过求使Ein最小的w时,如下图所示,小球可以自由自在滚到谷底,找到使Ein最小的点。(上面是z而不是x,是因为特征转换。后面会说到转换的z空间是什么样)

而现在有了约束条件,就好像给小球绑了一根绳子固定在A点,小球只能在以A点为圆心,以绳子长为半径的圆内滚动(图以二维示,请自行想象真实场景):


我们把真实立体场景投影到地面上,就会如下图所示。紫色的点就是小球,紫色的虚线就是那根绳子,点A就是小球被固定的点,Wlin点就是谷底。如果没有那根绳子,小球可以自由滚动Wlin处,但是被绑住之后,只能在红色的圆圈内活动。蓝色的椭圆表示的是当前,小球所在的位置的Ein,为什么会是一个椭圆呢?它实际是等高面,如右图所示。

所以,想象紫色的点就是在右图中80(山坡高度80米)的那条线上,如下图所示:

所以,如上图所示,小球还可以滚到Ein更低一些的地方。

绿色的那条是圆的切线,而蓝色的那条线是小球现在所在山坡的负梯度方向。如果小球没有受限制,是会按着负梯度方向滚下去,但是有根绳子拉着。当我们把负梯度方向分解为绿色的向量和红色的nomal那个向量,绳子限制的是小球向nomal方向滚,沿着绿色的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值