L1范数与L2范数

仙女修炼史

已于 2022-05-04 18:48:39 修改

阅读量2.7k

点赞数 1

分类专栏：深度学习算法文章标签：线性代数机器学习深度学习

于 2022-05-02 13:24:45 首次发布

本文链接：https://blog.csdn.net/weixin_45209433/article/details/124538186

版权

深度学习算法专栏收录该内容

16 篇文章 1 订阅

订阅专栏

一、范数

$p 范数$ ：
$x = [x_1,x_1,...x_n]^T$
那么向量x的 $p 范数$ 就是：
$x||_p = (|x_1|^p+|x_2|^p+...+|x_n|^p)^{1/p}$

二、L1范数与L2范数

$L 1 范数$ ：
$x||_1 = (|x_1|+|x_2|+...+|x_n|)$
$L 1 范数$ 是向量中，各个元素绝对值之和，作用：让参数矩阵W稀疏化，可以做特征选择。
$L 2 范数$ ：
$x||_2 = (|x_1|^2+|x_2|^2+...+|x_n|^2)^{1/2}$
$L 2 范数$ 是向量中，各个元素的平方和，然后求平方根，作用，让参数W的各个值都很小，防止过拟合，提高模型的泛化能力。

可以看到L1趋向于选择少量的特征，其他特征的权重为0，而，L2趋向于选择更多的特征，但是每个特征的权重都很小。

三、监督学习中的正则化

L1、L2在监督学习中，叫正则化，英文是regularization，单词的意思是规则化，即添加一些规则，限制模型的参数，让模型的参数不会太大。

minimize your error while regularizing your parameters，即在规则化参数的同时，最小化误差。当然，最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合。

正则化就是让我们的模型尽可能简单的解决我们的问题。

L1范数会使权值稀疏

L2范数会使模型参数不是很大，控制模型复杂度，防止过拟合

L2的引入，使得最优解向原点靠近，最优解的绝对值变小，这样对这个模型来说，复杂度变低了。

L2为啥叫权重衰减：

$L(w,b)+\lambda/2||w||^2$
$\frac{\varphi Loss}{\varphi w} = \frac{\varphi L(w,b)}{\varphi w} + \lambda w$
梯度在时间t更新参数：
$w_{t+1} = w_t - \eta \frac{\varphi}{\varphi w_t}$
$w_{t+1} = (1 - \eta \lambda)w_t - \eta \frac{\varphi L(w_t,b_t)}{\varphi w_t}$
通常 $\eta \lambda < 1$ ，也就是说，每次进行权重更新的时候，都把 $w_t$ 变小，然后再沿着梯度的方向，走一点，所以叫权重衰退。

仙女修炼史

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
L1范数与L2范数

一、范数p范数p范数p范数：x=[x1,x1,...xn]Tx = [x_1,x_1,...x_n]^Tx=[x1,x1,...xn]T那么向量x的p范数p范数p范数就是：∣∣x∣∣p=(∣x1∣p+∣x2∣p+...+∣xn∣p)1/p||x||_p = (|x_1|^p+|x_2|^p+...+|x_n|^p)^{1/p}∣∣x∣∣p=(∣x1∣p+∣x2∣p+...+∣xn∣p)1/p二、L1范数与L2范数L1范数L1范数L1范数：∣∣x∣∣1=(∣x1∣+∣x2∣+...
复制链接

扫一扫