白话图解机器学习里的Regularization正则化

目录

概念

方法

图解

L0范数

L1范数

L2范数

L1/L2区别

参考


概念

概念:Regularization,直译为规范化; 正则; 规则化调整; 正则化; 规则化。是一种约束性调整策略。个人理解:向模型加入某些规则(约束条件,含先验知识),缩小解空间,减小求出错误解的可能性,也就是增强模型泛化能力的一种手段。

【正则化】这一称呼貌似是小gui子的翻译。

出处:线性代数理论           
目的:求解不适定问题。机器学习中主要为了防止过拟合,如在下图中舍红线取绿线。



方法

本质:机器学习领域中,LogisticRegression逻辑回归也罢,SVM支持向量机也罢,亦或简单的LinearModel,设定其base function为\phi \left ( \chi \right ),通过对cost function求极值来确定\phi \left ( \chi \right )中一系列parameters。最终模型的确定即依赖于这些parameters。
方法:
1、 参数正则化方法——L1/L2范数
2、 隐式正则化方法
3、 深度学习中的Early Stopping
4、 深度学习中的dropout

5、深度学习中的image augmentation



图解

引用李航《统计学习方法》中的描述:规则化是结构风险最小化策略的实现,是在经验风险最小化上加一个规则化项(regularizer)或罚项(penalty term)。规则化项一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。比如,规则化项可以是模型参数向量的范数。
下面详述L1/L2范数作为规则化项:

L0范数

L0范数——向量中非0的元素的个数。假如以L0范数对参数矩阵W进行正则化,则是希望W中大部分元素都为0,尽可能让参数W是稀疏的。

L1范数

L1范数——向量中各个元素绝对值之和。因L0范数很难优化求解,同时L1范数是L0范数的最优凸近似,它比L0范数更容易优化求解,故多使用L1范数代替L0范数。

L1:\left | \left | x \right | \right |1=\sum_{i=0}^{i=n}\left | x_{i} \right |

优化形式:\min_{\omega }\frac{1}{2}\left ( y-X\omega \right )^{2}, \left | \left | \omega \right | \right |1\leq C

L2范数

又被称作“Ridge Regression 岭回归”、“weight decay 权重衰减”。

L2:\left | \left | x \right | \right |2=\sqrt{\sum_{i=0}^{i=n}x{_{i}}^{2}}

优化形式:\min_{\omega }\frac{1}{2}\left ( y-X\omega \right )^{2}, \left | \left | \omega \right | \right |2\leq C

让L2规则项||W||2最小,其最终效果是使W的每个元素都很小,都接近于0。那么,这些很小的参数直接使得模型更简单,也就不容易产生过拟合现象。

L1/L2区别

L1绝对值最小,L2平方最小;

L1趋向于产生更少量的特征,而其他的特征都是0,而L2趋向于产生更多的特征,但这些特征都会接近于0。



参考

[1]统计学习方法

[2]机器学习基础——规则化(Regularization)

[3]机器学习系列(四)——规则化(Regularize)

### 回答1: 正则化是一种用于限制模型复杂度的正则化技术,它使学习算法更健壮,更稳定,更可靠。它通过向模型添加附加项(正则化项),以降低模型复杂度。正则化项可以是L1正则化(Lasso正则化)或L2正则化(Ridge正则化)等。 ### 回答2: 在机器学习正则化是一种通过在模型的损失函数引入惩罚项来避免过拟合的技术。其原理是通过约束模型的复杂度,使得模型更加简单而具有较好的泛化能力。 正则化主要有两种形式:L1正则化和L2正则化。L1正则化引入了模型参数的绝对值之和作为惩罚项,即通过最小化损失函数和正则化项的和来寻找最优解。L2正则化则引入了模型参数的平方和作为惩罚项,即通过最小化损失函数和正则化项的和来寻找最优解。 正则化的原理是通过对模型参数进行约束,可以使得某些参数趋近于0,从而实现特征选择和降低模型复杂度的目的。L1正则化倾向于产生稀疏解,即只有部分参数非0,从而实现特征选择,有助于模型的解释性。而L2正则化则倾向于参数趋近于0而非完全为0,可以降低模型的复杂度,并避免过拟合。 正则化可以有效地控制模型的复杂度,在训练过程通过平衡拟合程度和模型复杂度来选择最优解。当正则化力度较大时,模型会更加关注减小正则化项,从而更加趋向于简单的模型。当正则化力度较小时,模型会更加关注拟合训练数据,可能导致过拟合。 总之,正则化机器学习用于避免过拟合、提高模型泛化能力的重要技术。通过限制模型的复杂度,正则化可以提高模型的性能和稳定性。 ### 回答3: 机器学习正则化是一种通过添加惩罚项来控制模型复杂度的技术。正则化的目的是防止模型过拟合(overfitting),即在训练数据上表现优秀但在新数据上表现较差的情况。 正则化的原理是在模型的损失函数,加入一个额外的惩罚项,以限制模型参数的取值范围。这个惩罚项可以是L1正则化(L1 regularization)或者L2正则化(L2 regularization)。 L1正则化通过在损失函数加入模型参数的绝对值之和乘以一个超参数lambda的惩罚项,使得模型参数趋向于稀疏化。通过L1正则化,可以使得模型自动选择重要的特征,并且减少不相关或冗余特征的影响。 L2正则化通过在损失函数加入模型参数的平方之和乘以一个超参数lambda的惩罚项,使得模型参数的取值更加平滑。通过L2正则化,可以减小模型参数的大小,并且降低模型对训练数据的噪声的敏感性。 正则化的原理是在训练模型时,通过调整惩罚项的权重,平衡拟合训练数据和控制模型复杂度之间的关系。正则化在一定程度上约束了模型的自由度,使得模型更加稳定、泛化能力更强,从而能够更好地适应新数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值