L1、L2正则化是啥?

L1正则化、L2正则化都是一种用于防止模型过拟合的技术,常用于机器学习和统计建模中。它们的主要区别在于对权重的惩罚方式不同。

L1正则化在损失函数中加入权重绝对值的和作为惩罚项,其数学表达式为:

其中,∣wi∣表示模型参数的绝对值。

L2正则化在损失函数中加入权重平方和作为惩罚项,其数学表达式为::

其中:
Original Loss是模型的原始损失(如均方误差);
wi​ 表示模型的参数(权重);
λ 是正则化参数,控制惩罚项的强度。

通过引入L2正则化,模型会倾向于学习较小的权重值,这样可以减少模型对训练数据的敏感性,从而提高模型在未知数据上的泛化能力

L2正则化的一个重要特性是它会使得权重趋向于零,但不会完全变为零,这与L1正则化(会导致某些权重变为零以实现特征选择)不同。

区别与联系

  1. 惩罚形式

    • L1正则化使用参数的绝对值,因此会傾向于使某些权重完全为零,这可以实现特征选择。
    • L2正则化使用参数的平方,因此更倾向于将权重值减小,但不会完全为零。
  2. 几何意义

    • 在损失函数的图形中,L1正则化的等高线呈菱形,而L2正则化的等高线呈圆形
    • L1正则化的边界能够更容易地与坐标轴相交,从而使得某些权重为零。
  3. 优化结果

    • L1正则化会导致参数稀疏化,适合于特征选择。
    • L2正则化则通常会产生更平滑的模型,更适合于多数特征的情况。

具体例子

假设我们要用线性回归模型来预测房价。假设我们有多个特征,例如房间数量、位置、面积和年龄等。使用这些特征时:

  • L1正则化:在训练过程中,L1正则化可能会将某些不重要特征(如房间数量)对应的权重推向零,从而使得模型只关注实际影响房价的特征(如位置和面积)。这种特性使得L1正则化特别适合于高维数据的情况,尤其是当你认为不所有的特征都是重要的时候。

  • L2正则化:与此相反,L2正则化会对所有特征施加惩罚,但不一定会将某些特征权重变为零。它可能会减小所有特征的影响力,但仍然保留它们的贡献。这对于模型的整体复杂性控制很重要,旨在确保模型尽量符合训练数据同时又避免对噪声的过度拟合。

总结来说,L1和L2正则化可以根据具体问题的需求进行选择,L1适用于需要特征选择的情况,而L2适用于一般的平滑建模

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Drawing Ting

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值