转载至作者Xinyu Chen
https://zhuanlan.zhihu.com/p/26884695
解决过拟合问题
在机器学习的诸多方法中,假设给定了一个比较小的数据集让我们来做训练,我们常常遇到的问题可能就是过拟合 (over-fitting) 了,即训练出来的模型可能将数据中隐含的噪声和毫无关系的特征也表征出来。
为了避免类似的过拟合问题,一种解决方法是在 (机器学习模型的) 损失函数中加入正则项,比如用 L1 -范数表示的正则项,只要使得 L1-范数的数值尽可能变小,就能够让我们期望的解变成一个稀疏解 (即解的很多元素为0)。
非0的地方就是比较有用的特征。
只要优化模型的解 x 的 L1-范数比较小,那么这个解就是稀疏解,并且稀疏解可以避免过拟合。其中,“稀疏”一词可以理解为 x 中的大多数元素都是0,只有少量的元素是非0的。