深度神经网络中的损失函数

最新推荐文章于 2024-03-15 18:38:39 发布

tigerlib

最新推荐文章于 2024-03-15 18:38:39 发布

阅读量1.3k

点赞数

分类专栏： deep learning 文章标签：交叉熵坡道散度大间隔交叉熵中心损失函数

本文链接：https://blog.csdn.net/weixin_44695969/article/details/101035452

版权

deep learning 专栏收录该内容

28 篇文章 3 订阅

订阅专栏

深度神经网络中的目标函数（objective function）

亦称：“损失函数”（loss function）& “代价函数”（cost function）
可谓整个深度网络模型的“指挥棒”
通过样本的预测结果与真实标记之间产生的误差，反向传播指导网络参数学习与表示学习

文章目录

1 分类任务的损失函数

1.1 交叉熵（cross entrypy）损失函数

亦称Softmax损失函数
最常用的分类损失函数
通过指数化变换，使网络输出 $h$ 转换成概率形式
$L_{cross entrypy loss}=L_{softmax loss}=-\frac{1}{N}\sum_{i=1}^N\log\frac{e^{h_{y_i}}}{\sum_{j=1}^Ce^{h_j}}$

1.2 合页（hinge）损失函数

在支持向量机中，被广泛使用
对错误越大的样本，施加越严重的惩罚
对噪声（离群点）的抵抗能力较差
分类效果：交叉熵损失函数 略优于 合页损失函数
$L_{hinge loss}=\frac{1}{N}\sum_{i=1}^N\max\{0,1-h_{y_i}\}$

1.3 坡道（ramp）损失函数

非凸（non-convex）损失函数（具有良好的抗噪特性）
在分类误差较大的区域，进行截断，来适当减小对整个误差函数的影响
亦称“鲁棒（robust）损失函数” & “截断合页（truncated hinge）损失函数”
$L_{ramp loss}=L_{hinge loss}-\frac{1}{N}\sum_{i=1}^N\max\{0,s-h_{y_i}\}=\frac{1}{N}\sum_{i=1}^N(\max\{0,1-h_{y_i}\}-\max\{0,s-h_{y_i}\})$
截断点： $s$ ，其取值最好根据分类任务的类别数 $C$ 而定， $s=-\frac{1}{C-1}$ 。

1.4 大间隔交叉熵（large-margin softmax）损失函数

以上提到的交叉熵损失函数、合页损失函数、坡道损失函数的缺陷：

没有显示地将特征判别性学习考虑进整个网络训练中

问题解决：大间隔交叉熵损失函数、中心损失函数

考虑了增大类间距离，减小类内差异
提升了网络学习特征的判别能力

$L_{large-margin softmax loss}=-\frac{1}{N}\sum_{i=1}^N\log\frac{e^{\parallel W_i \parallel \parallel x_i \parallel \phi(\theta_{h_{y_i}})}}{e^{\parallel W_i \parallel \parallel x_i \parallel \phi(\theta_{h_{y_i}})}+\sum_{j\neq y_i}e^{\parallel W_i \parallel \parallel x_i \parallel \cos(\theta_j)}}$

将第 $i$ 类分类间隔“拉大”了，扩大了类间距离
由于它不仅要求分类正确，而且要求类间保持较大间隔，从而训练目标比传统交叉熵损失函数更困难；也正是因此，得到一个额外的好处，防止了模型过拟合
分类效果：优于交叉熵损失函数、合页损失函数

1.5 中心（center）损失函数

$L_{center loss}=\frac{1}{2}\sum_{i=1}^N\parallel x_i-c_{y_i} \parallel_2^2$

将注意力放在了减小 类内差异 上（迫使所有隶属于 $y_i$ 类的样本与中心不要距离过远，否则将增大惩罚）
在实际使用时，经常与考虑 类间距离 的损失函数 配合使用，如交叉熵损失函数
$L_{final}=L_{cross entropy loss}+\lambda L_{center loss}=-\frac{1}{N}\sum_{i=1}^N\log\frac{e^{h_{y_i}}}{\sum_{j=1}^Ce^{h_j}}+\frac{\lambda}{2}\sum_{i=1}^N\parallel x_i-c_{y_i} \parallel_2^2$
- 调节项： $\lambda$

2 回归任务的损失函数

分类问题中

样本真实标记对应了一条独热向量（one hot vector）
类别数 $C = 5$ ，某个样本真实标记（类别）为3号类别，则独热向量= $(0, 0, 1, 0, 0)$

回归问题中

同样，样本真实标记对应了一条向量
但是，此时样本 $i$ 的真实标记向量 $y_i=(y_1,...,y_i,...,y_M)，其中M为标记向量的维度（一般比较大）$
样本 $i$ ，在第 $t$ 维的预测误差： $l_t^i=y_t^i-\hat y_t^i$

2.1 l1和 l2损失函数

$l_1$ 损失函数： $L_{l_1 loss}=\frac{1}{N}\sum_{i=1}^N\sum_{t=1}^M|l_t^i|$
$l_2$ 损失函数： $L_{l_1 loss}=\frac{1}{N}\sum_{i=1}^N\sum_{t=1}^M(l_t^i)^2$
$l_1$ 和 $l_2$ 损失函数，在回归精度上，几乎相差无几（某些情况下 $l_2$ 损失略优）
$l_2$ 损失函数收敛速度比 $l_1$ 更快

2.2 Tukey’s biweight 损失函数

非凸（non-convex）损失函数（具有良好的抗噪特性）
$L_{Tukey's biweight loss}= \begin{cases} \frac{c^2}{6N}\sum_{i=1}^N\sum_{t=1}^M[1-(1-(\frac{l_t^i}{c})^2)^3] & \text{$|l_t^i|\leq c$} \\ \frac{c^2M}{6}, & \text{其他} \end{cases}$
常数 $c$ 指定了函数拐点

3 其他任务的损失函数

在一些如人的年龄，身体倾斜角度识别任务中，样本标记具有不确定性。

基于标记分布（label distribution）的损失函数为一种优质选择。

在利用标记分布技术之前，首先需要将输出 $h$ 转化为合法分布。在此以Softmax函数为例可将输出转化为： $\hat y_k=\frac{e^{h_{y_i}}}{\sum_{j=1}^Ce^{h_j}}$ ，其中 $k\in\{1,2,...,k,...,C\}$ 代表标记向量的第 $k$ 维
Kullback-Leibler散度（KL divergence）：用来度量 预测的标记向量 $\hat y$ 与 真实的标记向量 $y$ 之间的误差，KL散度亦称KL损失：
$L_{KL loss}=\sum_{k=1}^Cy_k\log\frac{y_k}{\hat y_k}，由于y_k为常数，则\Longleftrightarrow L_{KL loss}=-\sum_{k=1}^Cy_k\log{\hat y_k}$