MachineLearning(Hsuan-Tien Lin)第十四讲

最新推荐文章于 2018-11-13 22:44:56 发布

DanaMeng

最新推荐文章于 2018-11-13 22:44:56 发布

阅读量885

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/danameng/article/details/25243781

版权

本文详细介绍了机器学习中的正则化技术，特别是权重衰减（Weight Decay Regularization）。通过实例解释了如何从过度复杂的模型退化到更简单的模型，以及正则化的数学原理和优化问题。内容涵盖了约束条件对模型的影响，正规项在防止过拟合中的作用，以及正则化选择和λ参数的选取策略。

摘要由CSDN通过智能技术生成

Regularization

今天主要讲regulation。（在Andrew的week3（下）也讲到了，可以比较下。）

Regulation是解决overfit的办法。

问题提出

上一讲说到如果对下图中的点做回归的时候，目标函数是个二次多项式，但是你用一个四次多项式来做，结果overfit。

我们开始不知道目标函数是二次，但是做出四次函数后，发现模型太复杂了，发生了overfit，这时就要想办法退回去。比如退到三次函数，如果还是overfit就再退，退到二次，再看有没有overfit。

十二讲说的Structured Hypothesis Sets，多项式的h之间有包含关系，后面的h会包含前面的。这是不是给我们退回去一些启发？

怎么退回去呢？用regulation。

我们举从10次多项式退回到2次多项式的例子。

观察这两个h，发现h2包含在h10中，当w3-w10都是0的时候，h10就是h2。所以，如果要想h10退回到h2，也只要把后面的系数都变成0，即加上限制wi=0，i=3……10。

我们做回归的时候，参数w，是用成本函数来求，如10次的成本函数：

现在我们想退到2次的函数，我们就在求10次函数的参数的时候，加上限制，把后面的参数都限制为0。

你会问，这么麻烦，干脆直接用二次的不就行了吗？实际上，如前面所说，我们并不知道目标函数是二次的，所以也不可能把w3之后都设成0。我们只知道模型太复杂了，那就希望参数少些，比如根据经验觉得最多三个参数应该就可以了。于是，我们把求h2变成求h2’。

h2’比h2灵活，它没有规定哪三个参数留下，它又比h10简单，最多只留了三个参数。

但是，决定最多留三个参数被证明是个NP-hard。

所以，对w条件放更宽些，可以都留下，但是它们的值不能太大。设置一个值C，规定参数的平方和不能超过C。

如果C设置很大很大，那就相当于没约束，最后求出的就是10次函数；如果C设置很小很小，有一些参数就会被迫为0。H(C)会把h2’包括进来，如果C设置的刚好，就留下了三个参数，那么H(C)=h2’。用H(C)的方式求出的w叫。

Weight Decay Regularization

通过上面的分析，把求h变为如下优化问题：

说到这里，不得不感慨一下数学的无处不在的魅力。上面的模型就是最优化问题中“有约束非线性优化问题”。目的是求出使Ein最小的w，且w受限制。S.t.就是subject to，约束条件，即这里的正规项。在没有正规项之前，我们前面说过求使Ein最小的w时，如下图所示，小球可以自由自在滚到谷底，找到使Ein最小的点。（上面是z而不是x，是因为特征转换。后面会说到转换的z空间是什么样）

而现在有了约束条件，就好像给小球绑了一根绳子固定在A点，小球只能在以A点为圆心，以绳子长为半径的圆内滚动（图以二维示，请自行想象真实场景）：

我们把真实立体场景投影到地面上，就会如下图所示。紫色的点就是小球，紫色的虚线就是那根绳子，点A就是小球被固定的点，Wlin点就是谷底。如果没有那根绳子，小球可以自由滚动Wlin处，但是被绑住之后，只能在红色的圆圈内活动。蓝色的椭圆表示的是当前，小球所在的位置的Ein，为什么会是一个椭圆呢？它实际是等高面，如右图所示。