神经网络损失函数总结

最新推荐文章于 2024-06-04 23:34:37 发布

xuezhan123

最新推荐文章于 2024-06-04 23:34:37 发布

阅读量1.1w

点赞数 1

分类专栏：深度学习文章标签：神经网络损失函数

本文链接：https://blog.csdn.net/xuezhan123/article/details/79674357

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

常见的损失函数

1.均方误差损失函数（MSE）

$J(\theta) =\frac{\sum_{i=1}^n(y^{(i)}-{y^{(i)}}^{'})^2}{n}$ 其中 $y$ 是真值， $y^{'}$ 是预测值，它是 $W,b,x$ 的函数。

2.交叉熵损失函数（cross-entropy）

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}y^{(i)}\log(h_\theta(x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(x^{(i)})),$
首先熵是香农信息量 $(log\frac{1}{p} )$ 的期望。可以这样理解 $y$ 表示真实标记的分布， $h(x)$ 则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量 $y$ 与 $h(x)$ 的相似性。即两个分布的交叉熵越小越相似。

在上一次激活函数中我们聊到sigmoid激活函数，因为其本身的特性（饱和区），导致网络BP时会出现收敛很慢，怎么解决这个问题呢？
我们使用交叉熵损失函数代替MSE损失函数，先来回顾一下DNN反向传播的时候 $\delta^L$ ：

\partial J ( W , b , x , y ) \partial z L = (a L - y) ⊙ σ' (z)

$\frac{\partial J(W,b,x,y)}{\partial z^L} = (a^L-y) \odot \sigma^{'}(z)$
而我们损失函数改为交叉熵之后：

δ L = \partial J ( W , b , a L , y ) \partial z L = - y 1 a L (a L) (1 - a L) + (1 - y) 1 1 - a L (a L) (1 - a L) = - y (1 - a L) + (1 - y) a L = a L - y (433) (434) (435) (436)

$\begin{align} \delta^L & = \frac{\partial J(W,b,a^L,y)}{\partial z^L} \\& = -y\frac{1}{a^L}(a^L)(1-a^L) + (1-y) \frac{1}{1-a^L}(a^L)(1-a^L) \\& = -y(1-a^L) + (1-y)a^L \\& = a^L-y \end{align}$
此时的梯度表达式已经没有

σ′ σ ′ $\sigma ^{'}$ 了，也就是说没有sigmoid函数的导数了，所以可以避免那个问题。但是sigmoid激活函数在网络变深之后依然存在梯度弥散现象，在现在普遍用Relu激活函数取代sigmoid激活函数，Relu在网络很深的情况可以一定程度的避免梯度弥散。

3.对数似然损失函数

$J(W,b,a^L,y) = - \sum\limits_ky_klna_k^L$ 其中 $a_k^L$ 表示网络的输出值， $y_k$ 表示真值，取0或1.
对数似然损失一般用于多分类问题，在输出层加softmax激活，然后求对数似然损失。其本质就是，一组参数在一堆数据下的似然值，等于每一条数据在这组参数下的条件概率之积，而损失函数一般是每条数据的损失之和，为了把积变为和，就取了对数，再加个负号是为了让最大似然值和最小损失对应起来。
如果某一训练样本的输出为第i类。则 $y_i=1$ ,其余的 $j≠i$ 都有 $y_j=0$ 。由于每个样本只属于一个类别，所以这个对数似然函数可以简化为： $J(W,b,a^L,y) = -lna_i^L$
可见损失函数只和真实类别对应的输出有关，这样假设真实类别是第i类，则其他不属于第i类序号对应的神经元的梯度导数直接为0。对于真实类别第i类，它的 $W_i^L$ 对应的梯度计算为：

\partial J ( W , b , a L , y ) \partial W L i = \partial J ( W , b , a L , y ) \partial a L i \partial a L i \partial z L i \partial z L i \partial w L i = - 1 a L i ( e z L i ) \sum j = 1 n L e z L j - e z L i e z L i ( \sum j = 1 n L e z L j ) 2 a L - 1 i = - 1 a L i (e z L i \sum j = 1 n L e z L j - e z L i \sum j = 1 n L e z L j e z L i \sum j = 1 n L e z L j) a L - 1 i = - 1 a L i a L i (1 - a L i) a L - 1 i = (a L i - 1) a L - 1 i (537) (538) (539) (540) (541)

$\begin{align} \frac{\partial J(W,b,a^L,y)}{\partial W_i^L}& = \frac{\partial J(W,b,a^L,y)}{\partial a_i^L}\frac{\partial a_i^L}{\partial z_i^L}\frac{\partial z_i^L}{\partial w_i^L} \\& = -\frac{1}{a_i^L}\frac{(e^{z_i^L})\sum\limits_{j=1}^{n_L}e^{z_j^L}-e^{z_i^L}e^{z_i^L}}{(\sum\limits_{j=1}^{n_L}e^{z_j^L)^2}} a_i^{L-1} \\& = -\frac{1}{a_i^L} (\frac{e^{z_i^L}}{\sum\limits_{j=1}^{n_L}e^{z_j^L}}-\frac{e^{z_i^L}}{\sum\limits_{j=1}^{n_L}e^{z_j^L}}\frac{e^{z_i^L}}{\sum\limits_{j=1}^{n_L}e^{z_j^L}}) a_i^{L-1} \\& = -\frac{1}{a_i^L} a_i^L(1- a_i^L) a_i^{L-1} \\& = (a_i^L -1) a_i^{L-1} \end{align}$
同样的可以得到

bLi b i L $b_i^L$ 的梯度表达式为：

\partial J ( W , b , a L , y ) \partial b L i = a L i - 1

$\frac{\partial J(W,b,a^L,y)}{\partial b_i^L} = a_i^L -1$
可见，梯度计算也很简洁，也没有第一节说的训练速度慢的问题。举个例子，假如我们对于第2类的训练样本，通过前向算法计算的未激活输出为（1,5,3），则我们得到softmax激活后的概率输出为：(0.015,0.866,0.117)。由于我们的类别是第二类，则反向传播的梯度应该为：(0.015,0.866-1,0.117)。

参考

http://www.cnblogs.com/pinard/p/6437495.html
https://www.zhihu.com/question/27126057

xuezhan123

关注

1
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
神经网络损失函数总结

常见的损失函数1.均方误差损失函数（MSE）J(θ)=∑ni=1(y(i)−y(i)′)2nJ(θ)=∑i=1n(y(i)−y(i)′)2nJ(\theta) =\frac{\sum_{i=1}^n(y^{(i)}-{y^{(i)}}^{'})^2}{n} 其中yyy是真值，y′y′y^{'}是预测值，它是W,b,xW,b,xW,b,x的函数。2.交叉熵损失函数（cross-entro...
复制链接

扫一扫