L1范数与L2范数

一、范数

p 范 数 p范数 p
x = [ x 1 , x 1 , . . . x n ] T x = [x_1,x_1,...x_n]^T x=[x1,x1,...xn]T
那么向量x的 p 范 数 p范数 p就是:
∣ ∣ x ∣ ∣ p = ( ∣ x 1 ∣ p + ∣ x 2 ∣ p + . . . + ∣ x n ∣ p ) 1 / p ||x||_p = (|x_1|^p+|x_2|^p+...+|x_n|^p)^{1/p} xp=(x1p+x2p+...+xnp)1/p

二、L1范数与L2范数

L 1 范 数 L1范数 L1
∣ ∣ x ∣ ∣ 1 = ( ∣ x 1 ∣ + ∣ x 2 ∣ + . . . + ∣ x n ∣ ) ||x||_1 = (|x_1|+|x_2|+...+|x_n|) x1=(x1+x2+...+xn)
L 1 范 数 L1范数 L1是向量中,各个元素绝对值之和,作用:让参数矩阵W稀疏化,可以做特征选择。
L 2 范 数 L2范数 L2
∣ ∣ x ∣ ∣ 2 = ( ∣ x 1 ∣ 2 + ∣ x 2 ∣ 2 + . . . + ∣ x n ∣ 2 ) 1 / 2 ||x||_2 = (|x_1|^2+|x_2|^2+...+|x_n|^2)^{1/2} x2=(x12+x22+...+xn2)1/2
L 2 范 数 L2范数 L2是向量中,各个元素的平方和,然后求平方根,作用,让参数W的各个值都很小,防止过拟合,提高模型的泛化能力。

可以看到L1趋向于选择少量的特征,其他特征的权重为0,而,L2趋向于选择更多的特征,但是每个特征的权重都很小。

三、监督学习中的正则化

L1、L2在监督学习中,叫正则化,英文是regularization,单词的意思是规则化,即添加一些规则,限制模型的参数,让模型的参数不会太大。

minimize your error while regularizing your parameters,即在规则化参数的同时,最小化误差。当然,最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合。

正则化就是让我们的模型尽可能简单的解决我们的问题。

L1范数会使权值稀疏

L2范数会使模型参数不是很大,控制模型复杂度,防止过拟合

L2的引入,使得最优解向原点靠近,最优解的绝对值变小,这样对这个模型来说,复杂度变低了。

L2为啥叫权重衰减:

L o s s = L ( w , b ) + λ / 2 ∣ ∣ w ∣ ∣ 2 Loss = L(w,b)+\lambda/2||w||^2 Loss=L(w,b)+λ/2w2
φ L o s s φ w = φ L ( w , b ) φ w + λ w \frac{\varphi Loss}{\varphi w} = \frac{\varphi L(w,b)}{\varphi w} + \lambda w φwφLoss=φwφL(w,b)+λw
梯度在时间t更新参数:
w t + 1 = w t − η φ φ w t w_{t+1} = w_t - \eta \frac{\varphi}{\varphi w_t} wt+1=wtηφwtφ
w t + 1 = ( 1 − η λ ) w t − η φ L ( w t , b t ) φ w t w_{t+1} = (1 - \eta \lambda)w_t - \eta \frac{\varphi L(w_t,b_t)}{\varphi w_t} wt+1=(1ηλ)wtηφwtφL(wt,bt)
通常 η λ < 1 \eta \lambda < 1 ηλ<1,也就是说,每次进行权重更新的时候,都把 w t w_t wt变小,然后再沿着梯度的方向,走一点,所以叫权重衰退。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值