分类问题中的交叉熵损失和均方损失

最新推荐文章于 2024-08-19 20:56:21 发布

ifenghao

最新推荐文章于 2024-08-19 20:56:21 发布

阅读量2w

点赞数 5

分类专栏：深度学习文章标签：分类交叉熵均方求导

本文链接：https://blog.csdn.net/zhufenghao/article/details/52735750

版权

深度学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

分类问题的损失函数

交叉熵损失（Cross Entropy Loss）：假设误差是二值分布，可以视为预测概率分布和真实概率分布的相似程度。在分类问题中有良好的应用

$C E (θ) = - \sum i = 1 n y i * log (y^i)$ $CE(\theta) = -\displaystyle\sum_{i=1}^{n}{y_i*\log({\hat{y}_{i}})}$
其中 $y_i$ 表示真实概率分布，只有 $y_k=1$ ，而 $y_j=0$ ， $j\neq k$ 。 $\hat{y}_i$ 表示预测概率分布，设它的输入为 $\theta_i$ ，则 $\hat{y}_i=softmax(\theta_i)=\displaystyle\frac{\exp(\theta_i)}{\sum_{j}{\exp(\theta_j)}}$
均方损失（Mean Square Loss）：假设误差是正态分布，适用于线性的输出，特点是对于与真实结果差别越大，则惩罚力度越大，这并不适用于分类问题。

$M S (θ) = 1 n \sum i = 1 n (y i - y^i) 2$ $MS(\theta)=\frac{1}{n}\sum_{i=1}^{n}{(y_i-\hat{y}_{i})^2}$
其中 $\hat{y}_i=W\cdot \theta_i$ 表示 $\theta_i$ 的线性输出。

交叉熵的求导过程

由于只有 $y_k=1$ ，而 $y_j=0$ ， $j\neq k$ ，则有

C E (θ) = = = = - \sum i = 1 n y i * log (y^i) - log (y^k) - log (exp ( θ k ) \sum j exp ( θ j )) - θ k + log (\sum j exp (θ j))

$\begin{eqnarray} CE(\theta) &=& -\sum_{i=1}^{n}{y_i*\log({\hat{y}_{i}})}\\ &=& -\log({\hat{y}_{k}})\\ &=& - \log(\frac{\exp(\theta_k)}{\sum\nolimits_{j}{\exp(\theta_j)}})\\ &=& - \theta_k + \log(\sum\nolimits_{j}{\exp(\theta_j)}) \end{eqnarray}$
故

\partial C E ( θ ) \partial θ = - \partial θ k \partial θ + \partial \partial θ log (\sum j exp (θ j))

$\begin{eqnarray} \frac{\partial{CE(\theta)}}{\partial{\theta}} = - \frac{\partial{\theta_k}}{\partial{\theta}} + \frac{\partial}{\partial{\theta}} \log(\sum\nolimits_{j}{\exp(\theta_j))} \end{eqnarray}$
而根据

∂θk∂θk=1 $\displaystyle\frac{\partial{\theta_k}}{\partial{\theta_k}} = 1$ ，

∂θk∂θq=0 $\displaystyle\frac{\partial{\theta_k}}{\partial{\theta_q}} = 0$ ，

q≠k $q\neq k$ ，得到

\partial θ k \partial θ \partial \partial θ i log (\sum j exp (θ j)) = = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 0 ⋮ 1 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ exp ( θ i ) \sum j exp ( θ j ) = = y y^i

$\begin{eqnarray} \frac{\partial{\theta_k}}{\partial{\theta}} &=& \left[\begin{array}{c}0\\\vdots\\1\\\vdots\\0\end{array}\right] &=& y\\ \frac{\partial}{\partial{\theta_i}} \log(\sum\nolimits_{j}{\exp(\theta_j))} &=& \frac{\exp(\theta_i)}{\sum\nolimits_{j}{\exp(\theta_j)}} &=& \hat{y}_{i} \end{eqnarray}$
最终得到

\partial C E \partial θ = \partial \partial θ log (\sum j exp (θ j)) - \partial θ k \partial θ = y^- y

$\frac{\partial{CE}}{\partial{\theta}} = \frac{\partial}{\partial{\theta}} \log(\sum\nolimits_{j}{\exp(\theta_j))} - \frac{\partial{\theta_k}}{\partial{\theta}} = \hat{y}-y$