改进神经网络学习方法——交叉熵代价函数

最新推荐文章于 2022-05-16 16:43:14 发布

「已注销」

最新推荐文章于 2022-05-16 16:43:14 发布

阅读量625

点赞数

分类专栏：神经网络与深度学习文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/xu_ampl/article/details/95179849

版权

本文深入探讨了神经网络学习中交叉熵代价函数的引入原因和优势，对比了二次代价函数，揭示了交叉熵如何解决学习速度下降的问题。通过数学推导，解释了交叉熵函数关于权重和偏置的导数，展示了在多层神经网络中的应用，并讨论了在输出层使用线性神经元时的情况。此外，还介绍了交叉熵的起源，以及在logistic回归和softmax回归中的作用。

摘要由CSDN通过智能技术生成

交叉熵代价函数
改进神经网络学习方法——交叉熵代价函数
《Neural Networks and Deep Learning》 $\text{(Michael Nielsen)}$ 笔记 (三)
对二次代价函数： $C=\frac{(y-a)^{2}}{2} \qquad(1)$ $a$ 是神经元的输出，训练输入为 $x = 1, y = 0$ 我们有 $a=\sigma(z)$ ，其中 $z = w x + b$ ，使用链式法则求权重和偏置的偏导数： $\begin{aligned} \frac{\partial C}{\partial w} &=(a-y) \sigma^{\prime}(z) x=a \sigma^{\prime}(z)\qquad(2) \\ \frac{\partial C}{\partial b} &=(a-y) \sigma^{\prime}(z)=a \sigma^{\prime}(z) \qquad(3)\end{aligned}$

从上图可以看出，当神经元的输出接近 $1$ 时，曲线变得相当平，所以 $\sigma^{\prime}(z)$ 就很小，方程 $(2)$ 和 $(3)$ 也告诉我们 $\frac{\partial C} { \partial w}$ 和 $\frac{\partial C} { \partial b}$ 会非常小，这其实是学习缓慢的原因所在。
引入交叉熵代价函数

神经元的输出就是 $a=\sigma(z)$ , $z=\sum_{j} w_{j} x_{j}+b$
定义这个神经元的交叉熵代价函数：
$C=-\frac{1}{n} \sum_{x}[y \ln a+(1-y) \ln (1-a)] \qquad(4)$ 其中 $n$ 训练数据的总数，求和是在所有的训练输入 $x$ 上进行的， $y$ 是对应的目标输出。
将交叉熵看作是代价函数的两点原因：一、交叉熵是非负的。二、如果对于所有的训练输入 $x$ ，神经元实际的输出接近目标值，达到很好的正确率，那么交叉熵将接近 $0$ 。
交叉熵代价函数有一个比二次代价函数更好的特性是它避免了学习速度下降的问题。
我们将 $a=\sigma(z)$ 带入到 $(4)$ 中应用两次链式法则，得 $\begin{aligned} \frac{\partial C}{\partial w_{j}} &=-\frac{1}{n} \sum_{x}\left(\frac{y}{\sigma(z)}-\frac{(1-y)}{1-\sigma(z)}\right) \frac{\partial \sigma}{\partial w_{j}} \\ &=-\frac{1}{n} \sum_{x}\left(\frac{y}{\sigma(z)}-\frac{(1-y)}{1-\sigma(z)}\right) \sigma^{\prime}(z) x_{j} \end{aligned}$ 注： $\begin{aligned} \frac{\partial C}{\partial w_{j}} &=-\frac{1}{n} \sum \frac{\partial}{\partial w_{j}}[y \ln a+(1-y) \ln (1-a)] \\ &=-\frac{1}{n} \sum \frac{\partial}{\partial a}[y \ln a+(1-y) \ln (1-a)] \cdot \frac{\partial a}{\partial w_{j}} \\ &=-\frac{1}{n} \sum\left(\frac{y}{a}-\frac{1-y}{1-a}\right)\cdot \frac{\partial a}{\partial w_{j}} \\ &=-\frac{1}{n} \sum\left(\frac{y}{s(z)}-\frac{1-y}{1-s(z)}\right) \frac{\partial \zeta(z)}{\partial w_{j}} \\ &=-\frac{1}{n} \sum\left(\frac{y}{\zeta(z)}-\frac{1-y}{1-\zeta(z)}\right) \zeta^{\prime}(z) x_{j} \end{aligned}$ 合并结果简化成： $\frac{\partial C}{\partial w_{j}}=\frac{1}{n} \sum_{x} \frac{\sigma^{\prime}(z) x_{j}}{\sigma(z)(1-\sigma(z))}(\sigma(z)-y)$