regularizer 看字面意思都能意会到本意了吧。
我被坑的才叫久,因为我是很晚才看到这个词的英文的,中文译成正则项简直是坑人,所以之前都是从它的作用上倒过来理解的,直到某次无意间看到了英文才顿悟了这个东西的存在的意图。
译成“规则项”难道不比“正则项”好么,译成“正则项”简直就是在术语化在门槛化,让领域外的人难以get到它的本意。
作者:知乎用户
链接:https://www.zhihu.com/question/20924039/answer/73941774
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
作者:知乎用户
链接:https://www.zhihu.com/question/20924039/answer/48923334
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
链接:https://www.zhihu.com/question/20924039/answer/48923334
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
正则化项即罚函数,该项对模型向量进行“惩罚”,从而避免单纯最小二乘问题的过拟合问题。正则化项本质上是一种
先验信息,整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计,其中
正则化项对应后验估计中的
先验信息,
损失函数对应后验估计中的
似然函数,两者的乘积即对应
贝叶斯最大后验估计的形式,如果你将这个贝叶斯最大后验估计的形式取对数,即进行极大似然估计,你就会发现问题立马变成了损失函数+正则化项的最优化问题形式。
好,接下来我来举个例子,就拿Lasso来说吧:Lasso中中的目标函数即相当于如下的后验概率:
<img src="https://i-blog.csdnimg.cn/blog_migrate/54b4e4f1aaa1b5ccd2c1aaac5bd2f2a0.png" data-rawwidth="306" data-rawheight="53" class="content_image" width="306">
其中
<img src="https://i-blog.csdnimg.cn/blog_migrate/24797045d923c2eaabf52588a5c213d4.png" data-rawwidth="396" data-rawheight="142" class="content_image" width="396">
(47)是似然函数,对应于Lasso中的损失函数,(48)是先验概率,相当于Lasso中的正则化项。可以看出,Lasso的正则化项从贝叶斯观点来看就是以Laplace先验信息。
采用不同的先验信息,可得到不同的结果。因此,你可以设计其它的先验信息构成新的正则化项。例如,Group Lasso以变量的组结构为先验信息构成的正则化项可实现变量组选择,等等......
好,接下来我来举个例子,就拿Lasso来说吧:Lasso中中的目标函数即相当于如下的后验概率:
<img src="https://i-blog.csdnimg.cn/blog_migrate/54b4e4f1aaa1b5ccd2c1aaac5bd2f2a0.png" data-rawwidth="306" data-rawheight="53" class="content_image" width="306">
![](https://i-blog.csdnimg.cn/blog_migrate/54b4e4f1aaa1b5ccd2c1aaac5bd2f2a0.png)
<img src="https://i-blog.csdnimg.cn/blog_migrate/24797045d923c2eaabf52588a5c213d4.png" data-rawwidth="396" data-rawheight="142" class="content_image" width="396">
![](https://i-blog.csdnimg.cn/blog_migrate/24797045d923c2eaabf52588a5c213d4.png)
(47)是似然函数,对应于Lasso中的损失函数,(48)是先验概率,相当于Lasso中的正则化项。可以看出,Lasso的正则化项从贝叶斯观点来看就是以Laplace先验信息。
采用不同的先验信息,可得到不同的结果。因此,你可以设计其它的先验信息构成新的正则化项。例如,Group Lasso以变量的组结构为先验信息构成的正则化项可实现变量组选择,等等......