（二）有监督神经网络（最后两张图浓缩精华）

最新推荐文章于 2024-04-30 12:04:23 发布

学为好人

最新推荐文章于 2024-04-30 12:04:23 发布

阅读量1.2k

点赞数

分类专栏：计算机视觉编程相关文章标签：神经网络反向传播递推公式 Softmax损失

编程相关同时被 2 个专栏收录

29 篇文章 2 订阅

订阅专栏

计算机视觉

21 篇文章 2 订阅

订阅专栏

1 多层神经网络

1.1 神经元

考虑一个有监督学习问题，给定带标签样本 $\{{{\mathbf{x}}^{(i)}},{{y}^{(i)}}\}$ ，神经网络定义了一个复杂的非线性假设 ${{h}_{\mathbf{W,b}}}(\mathbf{x})$ ，其中 $\mathbf{W,b}$ 为参数。
为了描述神经网络，我们从最简单的神经网络开始，只有一个神经元，如下图

神经元是一个计算单元，输入 ${{\mathbf{x}}_{1}},{{\mathbf{x}}_{2}},{{\mathbf{x}}_{3}}$ 和偏置1，输入 ${{h}_{\mathbf{W,}b}}(\mathbf{x})=f({{\mathbf{W}}^{T}}\mathbf{x})=f(\sum\nolimits_{i=1}^{3}{{{\mathbf{W}}_{i}}{{\mathbf{x}}_{i}}+b})$ ，其中 $f:\mathbb{R}\mapsto \mathbb{R}$ 为激活函数。常用的 $f(\cdot )$ 为Sigmoid函数，形式如下：

f (z) = 1 1 + exp ( - z )

$f(z)=\frac{1}{1+\exp (-z)}$

单神经元对应于逻辑斯特回归中定义的输入输出映射。
当然，其他形式的 $f$ 也是可以的，如tanh函数

f (z) = tanh (z) = e z - e - z e z + e - z

$f(z)=\tanh (z)=\frac{{{\operatorname{e}}^{z}}-{{\operatorname{e}}^{-z}}}{{{\operatorname{e}}^{z}}+{{\operatorname{e}}^{-z}}}$

近年来，研究发现一种不同的激活函数ReLU，在实际中可以展现更好的性能。该激活函数不同于Sigmoid和tanh，因为它不是有界的，且不是连续可微的。该函数形式如下：

f (z) = max (0, z)

$f(z)=\max (0,z)$

三种激活函数对比如下图

最后，如果激活函数 $f(z)$ 是Sigmoid函数，则其偏导数为 ${f}'(z)=f(z)(1-f(z))$ 。如果激活函数 $f(z)$ 是tanh函数，则其偏导数为 ${f}'(z)=1-f{{(z)}^{2}}$ 。ReLU的偏导数为

f' (z) = {0, i f z \leq 0 1, i f z > 0

${f}'(z)=\left\{ \begin{align} & 0,\ \ \ if\ z\le 0 \\ & 1,\ \ \ if\ z>0 \\ \end{align} \right.$

1.2 神经网络模型

神经网络是有多个简单的神经元组成，一个神经元的输出可以是另一个神经元的输入。例如：

图中，最左端为输入层，蓝色圆圈为输入，其中标“+1”为偏置单元。最右端为输出层。中间层为隐层，其值是无法观测的。该网络有三个输入单元（不算偏置），三个隐单元和一个输出单元。
我们使用 ${{n}_{l}}$ 表示网络层数，上图中 ${{n}_{l}}=3$ 。层 $l$ 记为 ${{L}_{l}}$ ，故层 ${{L}_{1}}$ 为输入层，层 ${{L}_{{{n}_{l}}}}$ 为输出层。网络参数 $(\mathbf{W},\mathbf{b})=({{\mathbf{W}}^{(1)}},{{\mathbf{b}}^{(1)}},{{\mathbf{W}}^{(2)}},{{\mathbf{b}}^{(2)}})$ ，其中记 $\mathbf{W}_{ij}^{(l)}$ 为层 $l$ 中单元 $j$ 与层 $l+1$ 中单元 $i$ 的连接权重关系。同样， $\mathbf{b}_{i}^{(l)}$ 表示层 $l+1$ 中单元 $i$ 的相关偏置。因此，本例中， ${{\mathbf{W}}^{(1)}}\in {{\mathbb{R}}^{3\times 3}}$ ， ${{\mathbf{W}}^{(2)}}\in {{\mathbb{R}}^{1\times 3}}$ 。
注意，偏置项没有输入。层 $l$ 中节点单元的个数记为 ${{s}_{l}}$ （不算偏置）。
层 $l$ 中单元 $i$ 的激活响应（输出值）记为 $\mathbf{a}_{i}^{l}$ 。例如 $l=1$ ， $\mathbf{a}_{i}^{1}={{\mathbf{x}}_{i}}$ 表示第 $i$ 个输入。给定一个固定的参数 $\mathbf{W},\mathbf{b}$ ，神经网络定义一个假设 ${{h}_{\mathbf{W,b}}}(\mathbf{x})$ ，输出一个实数。神经网络的计算表示如下：

a (2) 1 a (2) 2 a (2) 3 h W, b (x) = f (W (1) 11 x 1 + W (1) 12 x 3 + W (1) 13 x 3 + b (1) 1) = f (W (1) 21 x 1 + W (1) 22 x 3 + W (1) 23 x 3 + b (1) 2) = f (W (1) 31 x 1 + W (1) 33 x 3 + W (1) 33 x 3 + b (1) 3) = a (3) 1 = f (W (2) 11 a (2) 1 + W (2) 12 a (2) 1 + W (2) 13 a (2) 1 + b (2) 1)

$\begin{align} \mathbf{a}_{1}^{(2)} & =f(\mathbf{W}_{11}^{(1)}{{\mathbf{x}}_{1}}+\mathbf{W}_{12}^{(1)}{{\mathbf{x}}_{3}}+\mathbf{W}_{13}^{(1)}{{\mathbf{x}}_{3}}+\mathbf{b}_{1}^{(1)}) \\ \mathbf{a}_{2}^{(2)} & =f(\mathbf{W}_{21}^{(1)}{{\mathbf{x}}_{1}}+\mathbf{W}_{22}^{(1)}{{\mathbf{x}}_{3}}+\mathbf{W}_{23}^{(1)}{{\mathbf{x}}_{3}}+\mathbf{b}_{2}^{(1)}) \\ \mathbf{a}_{3}^{(2)} &=f(\mathbf{W}_{31}^{(1)}{{\mathbf{x}}_{1}}+\mathbf{W}_{33}^{(1)}{{\mathbf{x}}_{3}}+\mathbf{W}_{33}^{(1)}{{\mathbf{x}}_{3}}+\mathbf{b}_{3}^{(1)}) \\ {{h}_{\mathbf{W,b}}}(\mathbf{x}) & =\mathbf{a}_{1}^{(3)}=f(\mathbf{W}_{11}^{(2)}\mathbf{a}_{1}^{(2)}+\mathbf{W}_{12}^{(2)}\mathbf{a}_{1}^{(2)}+\mathbf{W}_{13}^{(2)}\mathbf{a}_{1}^{(2)}+\mathbf{b}_{1}^{(2)}) \\ \end{align}$

定义 $\mathbf{z}_{i}^{(l)}$ 表示层 $l$ 中单元 $i$ 的输入加权和（包括偏置），例如 $\mathbf{z}_{i}^{(2)}=\sum\nolimits_{j=1}^{n}{\mathbf{W}_{ij}^{(1)}{{\mathbf{x}}_{j}}+\mathbf{b}_{i}^{(1)}}$ ，故 $\mathbf{a}_{i}^{(l)}=f(\mathbf{z}_{i}^{(l)})$ 。
扩展激活函数 $f(\cdot )$ 对元素级的向量操作，如 $f([{{\mathbf{z}}_{1}},{{\mathbf{z}}_{2}},{{\mathbf{z}}_{3}}])=[f({{\mathbf{z}}_{1}}),f({{\mathbf{z}}_{2}}),f({{\mathbf{z}}_{3}})]$ ，上式可重写为

z (2) a (2) z (3) h W, b (x) = W (1) T x + b (1) = f (z (2)) = W (2) T a (2) + b (2) = a (3) = f (z (3))

$\begin{align} {{\mathbf{z}}^{(2)}}&={{\mathbf{W}}^{(1)}}^{T}\mathbf{x}+{{\mathbf{b}}^{(1)}} \\ {{\mathbf{a}}^{(2)}}&=f({{\mathbf{z}}^{(2)}}) \\ {{\mathbf{z}}^{(3)}}&={{\mathbf{W}}^{(2)}}^{T}{{\mathbf{a}}^{(2)}}+{{\mathbf{b}}^{(2)}} \\ {{h}_{\mathbf{W,b}}}(\mathbf{x})& ={{\mathbf{a}}^{(3)}}=f({{\mathbf{z}}^{(3)}}) \\ \end{align}$

上面的操作过程我们称之为前传，更一般地，令 ${{\mathbf{a}}^{(1)}}=\mathbf{x}$ ，则给定层 $l$ 的激活响应 ${{\mathbf{a}}^{(l)}}$ ，可计算层 $l+1$ 的激活响应 ${{\mathbf{a}}^{(l+1)}}$ 如下：

z (l + 1) a (l + 1) = W (l) T a (l) + b (l) = f (z (l + 1))

$\begin{align} {{\mathbf{z}}^{(l+1)}}& ={{\mathbf{W}}^{(l)}}^{T}{{\mathbf{a}}^{(l)}}+{{\mathbf{b}}^{(l)}} \\ {{\mathbf{a}}^{(l+1)}} &=f({{\mathbf{z}}^{(l+1)}}) \\ \end{align}$

通过向量和矩阵操作，可快速实现上面的过程。
上面逐层传递计算的过程称为前馈神经网络。
当然，神经网络可以有多个输出，如下图网络有2个隐层，输出层有两个输出单元。
多个输出神经网络
这种网络在预测多个输出时是很有用的，如医疗诊断中，输入病人的若干特征，输出不同疾病的存在和不存在。

1.3 反向传播算法

假设给定一个固定的训练集 $\{({{\mathbf{x}}^{(1)}},{{y}^{(1)}}),...,({{\mathbf{x}}^{(m)}},{{y}^{(m)}}))\}$ ，神经网络可采用批量梯度下降算法求解。具体来说，对于单个训练样本 $(\mathbf{x},y)$ ，定义单个样本的代价函数如下：

J (W, b; x, y) = 1 2 | | h W, b (x) - y | | 2

$J(\mathbf{W},\mathbf{b};\mathbf{x},y)=\frac{1}{2}||{{h}_{\mathbf{W,b}}}(\mathbf{x})-y|{{|}^{2}}$

给定 $m$ 个样本，定义如下总体代价函数

J (W, b) = 1 m \sum i = 1 m J (W, b; x (i), y (i)) + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2 = 1 m \sum i = 1 m 1 2 | | h W, b (x (i)) - y (i) | | 2 + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2

$\begin{align} J(\mathbf{W},\mathbf{b}) & =\frac{1}{m}\sum\limits_{i=1}^{m}{J(\mathbf{W},\mathbf{b};{{\mathbf{x}}^{(i)}},{{y}^{(i)}})}+\frac{\lambda }{2}\sum\limits_{l=1}^{{{n}_{l}}-1}{\sum\limits_{i=1}^{{{s}_{l}}}{\sum\limits_{j=1}^{{{s}_{l+1}}}{{{\left( W_{ji}^{(l)} \right)}^{2}}}}} \\ & =\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{1}{2}||{{h}_{\mathbf{W,b}}}({{\mathbf{x}}^{(i)}})-{{y}^{(i)}}|{{|}^{2}}}+\frac{\lambda }{2}\sum\limits_{l=1}^{{{n}_{l}}-1}{\sum\limits_{i=1}^{{{s}_{l}}}{\sum\limits_{j=1}^{{{s}_{l+1}}}{{{\left( W_{ji}^{(l)} \right)}^{2}}}}} \\ \end{align}$

第一项为均方误差，第二项为正则化项，用于降低权值大小，抑制过拟合。参数 $\lambda$ 用于控制两项的相对比重。
上式的代价函数通常用于分类和回归问题。分类中， $y=0|1$ 表示两类标签；回归中，尺度缩放输出到 $[0,1]$ 。
最小化目标 $J(\mathbf{W},\mathbf{b})$ ，即训练神经网络，首先初始化参数 $\mathbf{W}_{ij}^{(l)}$ 和 $\mathbf{b}_{i}^{(l)}$ 为接近0的小的随机值，然后应用优化算法求解。因为 $J(\mathbf{W},\mathbf{b})$ 是非凸函数，梯度下降易陷入局部极值。但是实际中梯度下降通常较好！最后，随机初始化是很重要的！
梯度下降一次迭代更新一次参数

W (l) i j = W (l) i j - α \partial \partial W ( l ) i j J (W, b)

$\mathbf{W}_{ij}^{(l)}=\mathbf{W}_{ij}^{(l)}-\alpha \frac{\partial }{\partial \mathbf{W}_{ij}^{(l)}}J(\mathbf{W},\mathbf{b})$

b (l) i = b (l) i - α \partial \partial b ( l ) i J (W, b)

$\mathbf{b}_{i}^{(l)}=\mathbf{b}_{i}^{(l)}-\alpha \frac{\partial }{\partial \mathbf{b}_{i}^{(l)}}J(\mathbf{W},\mathbf{b})$

其中， $\alpha$ 为学习率。其关键就是计算上面的偏导数。下面描述反向传播算法，它可以有效地计算偏导数。
首先，要求计算单个样本 $(\mathbf{x},y)$ 偏导数 $\frac{\partial }{\partial \mathbf{W}_{ij}^{(l)}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)$ 和 $\frac{\partial }{\partial \mathbf{b}_{i}^{(l)}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)$ ，一旦可以得到这两个结果，则整体的代价函数的偏导数可计算如下：

\partial \partial W ( l ) i j J (W, b; x, y) = 1 m \sum i = 1 m \partial \partial W ( l ) i j J (W, b; x (i), y (i)) + λ W (l) i j

$\frac{\partial }{\partial \mathbf{W}_{ij}^{(l)}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)=\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{\partial }{\partial \mathbf{W}_{ij}^{(l)}}J(\mathbf{W},\mathbf{b};{{\mathbf{x}}^{(i)}},{{y}^{(i)}})}+\lambda \mathbf{W}_{ij}^{(l)}$

\partial \partial b ( l ) i J (W, b; x, y) = 1 m \sum i = 1 m \partial \partial b ( l ) i J (W, b; x (i), y (i))

$\frac{\partial }{\partial \mathbf{b}_{i}^{(l)}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)=\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{\partial }{\partial \mathbf{b}_{i}^{(l)}}J(\mathbf{W},\mathbf{b};{{\mathbf{x}}^{(i)}},{{y}^{(i)}})}$

下面重点关注如何计算：单个样本 $(\mathbf{x},y)$ 偏导数 $\frac{\partial }{\partial \mathbf{W}_{ij}^{(l)}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)$ 和 $\frac{\partial }{\partial \mathbf{b}_{i}^{(l)}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)$ 。
首先，直观感受一下反向传播算法。给定一个训练样本 $(\mathbf{x},y)$ ，前传计算所有激活响应，包括假设输出 ${{h}_{\mathbf{W,b}}}(\mathbf{x})$ 。然后，对于层 $l$ 的节点 $i$ ，计算误差项 $\delta _{i}^{(l)}$ ，该项度量了阶段在数据中误差的贡献。对输出节点，我们可以直接计算激活响应和目标值得差异，以此定义 $\delta _{i}^{({{n}_{l}})}$ （层 ${{n}_{l}}$ 为输出层）。对于隐层单元，基于各节点激活输入 $\mathbf{a}_{i}^{(l)}$ 的误差项加权平均来计算 $\delta _{i}^{(l)}$ 。
步骤1：前传计算每个节点的激活响应 $\{\mathbf{a}_{i}^{(l)}\},l=1,...,{{n}_{l}}$ 。
步骤2：对输出层 ${{n}_{l}}$ 的每个输出单元 $i$ ，计算

δ (n l) i = \partial \partial z ( n l ) i 1 2 | | y - h W, b (x) | | 2 = - (y i - a (n l) i) \cdot f' (z (n l) i)

$\delta _{i}^{({{n}_{l}})}=\frac{\partial }{\partial \mathbf{z}_{i}^{({{n}_{l}})}}\frac{1}{2}||y-{{h}_{\mathbf{W,b}}}(\mathbf{x})|{{|}^{2}}=-({{y}_{i}}-\mathbf{a}_{i}^{({{n}_{l}})})\cdot {f}'(\mathbf{z}_{i}^{({{n}_{l}})})$

步骤3：对非输出层 $l={{n}_{l}}-1,{{n}_{l}}-2,...,2$ 中的每个节点 $i$ ，计算

δ (l) i = - (\sum s l + 1 j = 1 W (l) j i δ (l + 1) i) f' (z (l) i)

$\delta _{i}^{(l)}=-\left( \sum\nolimits_{j=1}^{{{s}_{l}}+1}{W_{ji}^{(l)}\delta _{i}^{(l+1)}} \right){f}'(\mathbf{z}_{i}^{(l)})$

步骤4：计算参数的偏导数：

\partial \partial W ( l ) i j J (W, b; x, y) = a (l) j δ (l + 1) i

$\frac{\partial }{\partial \mathbf{W}_{ij}^{(l)}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)=\mathbf{a}_{j}^{(l)}\delta _{i}^{(l+1)}$

\partial \partial b ( l ) i J (W, b; x, y) = δ (l + 1) i

$\frac{\partial }{\partial \mathbf{b}_{i}^{(l)}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)=\delta _{i}^{(l+1)}$

上面的算法中“ $\cdot$ ”表示元素级点乘操作。对 ${f}'(\cdot )$ 同理， ${f}'([{{\mathbf{z}}_{1}},{{\mathbf{z}}_{2}},{{\mathbf{z}}_{3}}])=[{f}'({{\mathbf{z}}_{1}}),{f}'({{\mathbf{z}}_{2}}),{f}'({{\mathbf{z}}_{3}})]$ 。

矩阵版本的偏导数计算如下：
步骤1：前传计算激活响应 $\{{{\mathbf{a}}^{(l)}}\},l=1,...,{{n}_{l}}$ 。
步骤2：对输出层 ${{n}_{l}}$ 的每个输出单元 $i$ ，计算

δ (n l) = - (y i - a (n l)) \cdot f' (z (n l))

${{\delta }^{({{n}_{l}})}}=-({{y}_{i}}-{{\mathbf{a}}^{({{n}_{l}})}})\cdot {f}'({{\mathbf{z}}^{({{n}_{l}})}})$

步骤3：对非输出层 $l={{n}_{l}}-1,{{n}_{l}}-2,...,2$ 中的每个节点 $i$ ，计算
${{\delta }^{(l)}}=-\left( {{({{W}^{(l)}})}^{T}}{{\delta }^{(l+1)}} \right)\cdot {f}'({{\mathbf{z}}^{(l)}})$
步骤4：计算参数的偏导数：

\nabla W (l) J (W, b; x, y) = δ (l + 1) (a (l)) T

${{\nabla }_{{{\mathbf{W}}^{(l)}}}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)={{\delta }^{(l+1)}}{{({{\mathbf{a}}^{(l)}})}^{T}}$

\nabla b (l) J (W, b; x, y) = δ (l + 1)

${{\nabla }_{{{\mathbf{b}}^{(l)}}}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)={{\delta }^{(l+1)}}$

对于上面中的 ${f}'(\mathbf{z}_{i}^{(l)})$ ，如 $f(\mathbf{z})$ 采用sigmoid函数，则 ${f}'(\mathbf{z}_{i}^{(l)})=\mathbf{a}_{i}^{(l)}(1-\mathbf{a}_{i}^{(l)})$ 。

神经网络的整体算法如下：
步骤1：初始化 $\Delta {{\mathbf{W}}^{(l)}}:=0,\Delta {{\mathbf{b}}^{(l)}}:=0$ 。
步骤2：对所有样本，计算
步骤2.1：计算 ${{\nabla }_{{{\mathbf{W}}^{(l)}}}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)$ 和 ${{\nabla }_{{{\mathbf{b}}^{(l)}}}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)$ 。
步骤2.2：计算 $\Delta {{\mathbf{W}}^{(l)}}:=\Delta {{\mathbf{W}}^{(l)}}+{{\nabla }_{{{\mathbf{W}}^{(l)}}}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)$
步骤2.2：计算 $\Delta {{\mathbf{b}}^{(l)}}:=\Delta {{\mathbf{b}}^{(l)}}+{{\nabla }_{{{\mathbf{b}}^{(l)}}}}J(\mathbf{W},\mathbf{b};\mathbf{x},y)$
步骤3：更新

W (l) = W (l) - α [1 m Δ W (l) + λ W (l)]

${{\mathbf{W}}^{(l)}}={{\mathbf{W}}^{(l)}}-\alpha \left[ \frac{1}{m}\Delta {{\mathbf{W}}^{(l)}}+\lambda {{\mathbf{W}}^{(l)}} \right]$

b (l) = b (l) - α [1 m Δ b (l)]

${{\mathbf{b}}^{(l)}}={{\mathbf{b}}^{(l)}}-\alpha \left[ \frac{1}{m}\Delta {{\mathbf{b}}^{(l)}} \right]$

重复上述过程优化网络。
##############################################################
总结，多层神经网络主要涉及前传和后传两个过程，前传计算目标代价，后传计算梯度。
MSENN
前传主要的递推公式：

z (l + 1) = (W (l)) T a (l) + b (l) a (l + 1) = f (z (l + 1))

$\begin{align} & {{\mathbf{z}}^{(l+1)}}={{({{\mathbf{W}}^{(l)}})}^{T}}{{\mathbf{a}}^{(l)}}+{{\mathbf{b}}^{(l)}} \\ & {{\mathbf{a}}^{(l+1)}}=f({{\mathbf{z}}^{(l+1)}}) \\ \end{align}$

后传主要的递推公式：

δ (l) = - (y i - a (l)) \cdot f' (z (l)), l = n l δ (l) = ((W (l)) T δ (l + 1)) \cdot f' (z (l)), l < n l \nabla W (l) J = δ (l + 1) (a (l)) T \nabla b (l) J = δ (l + 1)

$\begin{align} & {{\delta }^{(l)}}=-({{y}_{i}}-{{\mathbf{a}}^{(l)}})\cdot {f}'({{\mathbf{z}}^{(l)}}),\ \ \ \ \ \ \ l={{n}_{l}} \\ & {{\delta }^{(l)}}=\left( {{({{\mathbf{W}}^{(l)}})}^{T}}{{\delta }^{(l+1)}} \right)\cdot {f}'({{\mathbf{z}}^{(l)}}),\ \ \ \ l<{{n}_{l}} \\ & {{\nabla }_{{{\mathbf{W}}^{(l)}}}}J={{\delta }^{(l+1)}}{{({{\mathbf{a}}^{(l)}})}^{T}} \\ & {{\nabla }_{{{\mathbf{b}}^{(l)}}}}J={{\delta }^{(l+1)}} \\ \end{align}$

其中， ${{\delta }^{(l)}}$ 可理解为 $\frac{\partial J}{\partial {{\mathbf{z}}^{(l)}}}=\frac{\partial J}{\partial {{\mathbf{z}}^{(l+1)}}}\frac{\partial {{\mathbf{z}}^{(l+1)}}}{\partial {{\mathbf{a}}^{(l)}}}\frac{\partial {{\mathbf{a}}^{(l)}}}{\partial {{\mathbf{z}}^{(l)}}}=\left( {{({{\mathbf{W}}^{(l)}})}^{T}}{{\delta }^{(l+1)}} \right)\cdot {f}'({{\mathbf{z}}^{(l)}})$ 。
##############################################################

1.4 Softmax回归

实验要求采用Softmax回归代价函数。假设最后一个隐层的输出一个 $K$ 维的激活响应为 ${{h}_{\mathbf{W},\mathbf{b}}}(\mathbf{x})={{[{{h}_{\mathbf{W},\mathbf{b}}}{{(\mathbf{x})}_{1}},...,{{h}_{\mathbf{W},\mathbf{b}}}{{(\mathbf{x})}_{K}}]}^{T}}$ ，则损失函数为：

J (W, b) = - ⎡ ⎣ \sum i = 1 m \sum k = 1 K 1 {y (i) = k} log exp ( h W , b ( x ( i ) ) k ) \sum K j = 1 exp ( h W , b ( x ( i ) ) j ) ⎤ ⎦

$J(\mathbf{W,b})=-\left[ \sum\limits_{i=1}^{m}{\sum\limits_{k=1}^{K}{1\{{{y}^{(i)}}=k\}\log \frac{\exp ({{h}_{\mathbf{W,b}}}{{({{\mathbf{x}}^{(i)}})}_{k}})}{\sum\nolimits_{j=1}^{K}{\exp ({{h}_{\mathbf{W,b}}}{{({{\mathbf{x}}^{(i)}})}_{j}})}}}} \right]$

该代价与1.3节代价函数不同，对应其

δ (n l) = - [\sum i = 1 m (1 {y (i) = k} - P (y (i) = k | x (i)))]

${{\delta }^{({{n}_{l}})}}=-\left[ \sum\limits_{i=1}^{m}{\left( 1\{{{y}^{(i)}}=k\}-P({{y}^{(i)}}=k|{{\mathbf{x}}^{(i)}}) \right)} \right]$
其中，

P(y(i)=k|x(i))=exp(hW,b(x(i))k)∑Kj=1exp(hW,b(x(i))j) $P({{y}^{(i)}}=k|{{\mathbf{x}}^{(i)}})=\frac{\exp ({{h}_{\mathbf{W,b}}}{{({{\mathbf{x}}^{(i)}})}_{k}})}{\sum\nolimits_{j=1}^{K}{\exp ({{h}_{\mathbf{W,b}}}{{({{\mathbf{x}}^{(i)}})}_{j}})}}$ 。
根据

δ(nl) ${{\delta }^{({{n}_{l}})}}$ ，采用1.3节反向传播即可求解网络参数。

##############################################################
当目标函数为Softmax损失时，网络训练如下图
SoftmaxNN
实际中，通常最后一层中无激活函数，即 ${{h}_{\mathbf{W,b}}}(\mathbf{x})={{\mathbf{a}}^{(4)}}={{\mathbf{z}}^{(4)}}$ 。为了统一表示，这里形式化激活函数为 $g(\cdot )$ ，以区分于前层的激活函数，如Sigmoid函数、tanh函数或ReLU函数。
##############################################################