目录
概念
概念:Regularization,直译为规范化; 正则; 规则化调整; 正则化; 规则化。是一种约束性调整策略。个人理解:向模型加入某些规则(约束条件,含先验知识),缩小解空间,减小求出错误解的可能性,也就是增强模型泛化能力的一种手段。
【正则化】这一称呼貌似是小gui子的翻译。
出处:线性代数理论
目的:求解不适定问题。机器学习中主要为了防止过拟合,如在下图中舍红线取绿线。
方法
本质:机器学习领域中,LogisticRegression逻辑回归也罢,SVM支持向量机也罢,亦或简单的LinearModel,设定其base function为,通过对cost function求极值来确定中一系列parameters。最终模型的确定即依赖于这些parameters。
方法:
1、 参数正则化方法——L1/L2范数
2、 隐式正则化方法
3、 深度学习中的Early Stopping
4、 深度学习中的dropout
5、深度学习中的image augmentation
图解
引用李航《统计学习方法》中的描述:规则化是结构风险最小化策略的实现,是在经验风险最小化上加一个规则化项(regularizer)或罚项(penalty term)。规则化项一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。比如,规则化项可以是模型参数向量的范数。
下面详述L1/L2范数作为规则化项:
L0范数
L0范数——向量中非0的元素的个数。假如以L0范数对参数矩阵W进行正则化,则是希望W中大部分元素都为0,尽可能让参数W是稀疏的。
L1范数
L1范数——向量中各个元素绝对值之和。因L0范数很难优化求解,同时L1范数是L0范数的最优凸近似,它比L0范数更容易优化求解,故多使用L1范数代替L0范数。
L1:
优化形式:
L2范数
又被称作“Ridge Regression 岭回归”、“weight decay 权重衰减”。
L2:
优化形式:
让L2规则项||W||2最小,其最终效果是使W的每个元素都很小,都接近于0。那么,这些很小的参数直接使得模型更简单,也就不容易产生过拟合现象。
L1/L2区别
L1绝对值最小,L2平方最小;
L1趋向于产生更少量的特征,而其他的特征都是0,而L2趋向于产生更多的特征,但这些特征都会接近于0。
参考
[1]统计学习方法