损失函数代价函数目标函数，BN，正则化，范数和范数归一化

AIchiNiurou

于 2022-01-02 19:29:46 发布

阅读量749

点赞数

分类专栏：机器学习+数学文章标签：矩阵线性代数几何学

本文链接：https://blog.csdn.net/weixin_44523062/article/details/122278850

版权

机器学习+数学专栏收录该内容

41 篇文章 1 订阅

订阅专栏

重点概念区分

在正文开始之前，先说下关于 Loss Function、Cost Function 和 Objective Function 的区别和联系。在机器学习的语境下这三个术语经常被交叉使用。

损失函数 Loss Function 通常是针对单个训练样本而言，给定一个模型输出和一个真实，损失函数输出一个实值损失
代价函数 Cost Function 通常是针对整个训练集（或者在使用 mini-batch gradient descent 时一个 mini-batch）的总损失
目标函数 Objective Function 是一个更通用的术语，表示任意希望被优化的函数，用于机器学习领域和非机器学习领域（比如运筹优化）
一句话总结三者的关系就是：A loss function is a part of a cost function which is a type of an objective function.

由于损失函数和代价函数只是在针对样本集上有区别，因此在本文中统一使用了损失函数这个术语，但下文的相关公式实际上采用的是代价函数 Cost Function 的形式，请读者自行留意。
https://mp.weixin.qq.com/s/YXJPX672rZH1X6YXwAjkxw

0 深度学习中损失函数

对于批次内样本的预测值和真实值的误差衡量后目标函数（求最小值优化）

（有时会混淆，到底是批次样本，还是所有样本的损失
因为大多数是使用mini-batch SGD所以对应的损失函数应该是批次内的样本的损失
）
损失函数的分类
https://blog.csdn.net/EmilyHoward/article/details/118367495

2 批次归一化 Batch normalization （减均值除方差学参数）

https://blog.csdn.net/qq_27009517/article/details/84024363

3 正则化，损失防止过拟合

4 L2范数归一化向量求L2-normalized

在这里插入图片描述

5 范数理解

http://www.zhihu.com/question/20473040/answer/102907063

可以从函数、几何与矩阵的角度去理解范数。

我们都知道，函数与几何图形往往是有对应关系的，这个很好想象，特别是在三维以下的空间内，函数是几何图像的数学概括，而几何图像是函数的高度形象化，比如一个函数对应几何空间上若干点组成的图形。
但当函数与几何超出三维空间时，就难以获得较好的想象，于是就有了映射的概念，映射表达的就是一个集合通过某种关系转为另外一个集合。通常数学书是先说映射，然后再讨论函数，这是因为函数是映射的一个特例。
为了更好的在数学上表达这种映射关系，（这里特指线性关系）于是就引进了矩阵。这里的矩阵就是表征上述空间映射的线性关系。而通过向量来表示上述映射中所说的这个集合，而我们通常所说的基，就是这个集合的最一般关系。于是，我们可以这样理解，一个集合（向量），通过一种映射关系（矩阵），得到另外一个集合（另外一个向量）。

那么向量的范数表示这个原有集合的大小。

矩阵的范数表示这个变化过程的大小的一个度量。

简单说：0范数表示向量中非零元素的个数（即为其稀疏度）。1范数表示为，绝对值之和。而2范数则指模。

向量范数

1-范数：

$||x||_1 = \sum_{i=1}^N|x_i|$ ，即向量元素绝对值之和，matlab调用函数norm(x, 1) 。

2-范数：

$||\textbf{x}||_2 =\sqrt{\sum_{i=1}^Nx_i^2}$ ，Euclid范数（欧几里得范数，常用计算向量长度），即向量元素绝对值的平方和再开方，matlab调用函数norm(x, 2)。

$\infty$ -范数： $||\textbf{x}||_\infty = \max_{i}|x_i|$ ，即所有向量元素绝对值中的最大值，matlab调用函数norm(x, inf)。

$-\infty$ -范数： $||\textbf{x}||_{-\infty}=\min_i|x_i|$

，即所有向量元素绝对值中的最小值，matlab调用函数norm(x, -inf)。

p-范数： $||\textbf{x}||_p = (\sum_{i=1}^N|x_i|^p)^{\frac{1}{p}}$
，即向量元素绝对值的p次方和的1/p次幂，matlab调用函数norm(x, p)。

矩阵范数

1-范数： $||A||_1 = \max_j\sum_{i=1}^m|a_{i,j}|$
，列和范数，即所有矩阵列向量绝对值之和的最大值，matlab调用函数norm(A, 1)。

2-范数： $||A||_2 = \sqrt{\lambda_1}$ ， $\lambda<br/>$ 为的 A^TA 最大特征值。

，谱范数，即A'A矩阵的最大特征值的开平方。matlab调用函数norm(x, 2)。

$\infty$ -范数： $||A||_\infty = \max_i\sum_{j=1}^N|a_{i,j}|$

，行和范数，即所有矩阵行向量绝对值之和的最大值，matlab调用函数norm(A, inf)。

F-范数： $||A||_F=\left(\sum_{i=1}^m\sum_{j=1}^n|a_{i,j}|^2\right)^{\frac{1}{2}}$

，Frobenius范数，即矩阵元素绝对值的平方和再开平方，matlab调用函数norm(A, ’fro‘)。

核范数： $||A||_* = \sum_{i=1}^{n}\lambda_i, \lambda_i$ 是A的奇异值。

即奇异值之和。

Lp范数是常用的正则化项，其中L2范数|w|2倾向于w的分量取值尽量均衡，即非零分量个数尽量稠密，而L0范数与L1范数则是倾向于w的分量尽量稀疏，即非零分量个数尽量少。

AIchiNiurou

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
损失函数代价函数目标函数，BN，正则化，范数和范数归一化

0 深度学习中损失函数对于批次内样本的预测值和真实值的误差衡量后目标函数（求最小值优化）（有时会混淆，到底是批次样本，还是所有样本的损失因为大多数是使用mini-batch SGD所以对应的损失函数应该是批次内的样本的损失）损失函数的分类https://blog.csdn.net/EmilyHoward/article/details/1183674952 批次归一化 Batch normalization （减均值除方差学参数）https://blog.csdn.ne
复制链接

扫一扫