机器学习——第五章神经网络_级联神经网络-CSDN博客

在这个模型中，神经元接收到来自n nn个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，然后通过“激活函数”处理以产生神经元的输出，理想中的激活函数如下图a所示的阶跃函数，它将输入值映射为输出值“0”或“1”，其中“1”对应于神经元兴奋，“0”对应于神经元抑制。

5.2 感知机与多层网络

感知机是神经网络最基本的模型，它是由一个或多个神经元组成的，而神经网络是由多个感知机或其他类型的神经元连接而成的复杂模型，它可以实现非线性分类和回归等功能，比如下面就是一个有两个输入神经元的感知机网络结构 $y=f(\sum w_ix_i-\theta)$ ，可以实现与、或、非运算。

更一般的，给定训练数据集，权重 $\omega$ 以及阈值 $\theta$ 可以通过学习得到，而阈值 $\theta$ 可以看作固定输入为-1的权重 $\omega_{n+1}$ ，这样就可以统一为权重的学习，对于感知机来说，学习规则如下所示，假设当前感知机的输出为$\mathop y\limits^ \wedge $，感知机权重将这样调整：

\begin{aligned}&w_{i}\leftarrow w_{i}+\Delta w_{i}\\&\Delta w_{i}=\eta(y-\overset{\wedge}{\operatorname*{y}})x_{i}\end{aligned}

其中 $\eta \in (0,1)$ 称为学习率，若感知机预测正确，则感知机不发生变化，否则将根据错误的程度进行权重调整，这也是感知机学习算法，是一种基于误分类的监督学习算法，目标是找到一个能够将训练数据正确分类的超平面。

感知机选择将预测值与实际值作差的形式来进行权重更新的依据是为了使超平面向正确分类的方向移动。当一个实例被误分类时，预测值与实际值的差就是误差的符号，它表示了超平面与实例之间的距离和方向，此时将误差乘以输入向量，就可以得到一个调整量，它表示了超平面在每个特征维度上需要移动的大小和方向，而将调整量加到权重上，就可以使超平面向正确分类的方向移动一定的距离。这样，经过多次迭代，超平面就可以逐渐接近最优的位置了。

上述问题都是线性可分问题，而这样的感知机无法解决非线性可分问题，要解决非线性可分问题，需要考虑使用多层功能神经元。如下所示的两层感知机，就可以解决异或问题，而在输出层与输入层之间的一层神经元则被称为隐层或隐含层，也是具有激活函数的功能神经元。

5.3 误差逆传播算法

多层网络的学习能力比单层感知器强得多，如果想训练多层网络，上述简单感知器的学习规则显然就不够了，需要更强大的学习算法，下面来介绍一下BP算法，BP算法是一种用于训练多层神经网络的梯度下降算法，它利用链式法则计算网络每层的权重对损失函数的梯度，然后更新权重来最小化损失函数。BP算法分为两个阶段：激励传播和权重更新。激励传播阶段包括前向传播和反向传播，前向传播是将训练输入送入网络以获得预测结果，反向传播是计算预测结果与训练目标的误差。权重更新阶段是根据误差和梯度调整网络的权重，以减小误差。

下面对BP算法中的一些符号进行定义，以一个拥有 $d$ 个输入神经元、 $l$ 个输出神经元、 $q$ 个隐层神经元的多层前馈网络结构为例，假设隐层和输出层神经元都是用Sigmoid函数作为激活函数。

D：训练集 $D=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})\},x_{i}\in R^{d},y\in R^{l}$ ，即输入示例由d个属性描述，输出l维实值向量

${\theta _j}$ ：输出层第j个神经元的阈值

${\gamma _h}$ ：隐层第h个神经元的阈值

${v_{ih}}$ ：输入层第i个神经元与隐层第h个神经元之间的连接权重 ${w_{hj}}$ ：隐层第h个神经元与输出层第j个神经元之间的连接权重
${\alpha _h}$ ：隐层第h个神经元接收到的输入 $\alpha_{h}=\sum_{i=1}^{d}v_{ih} x_{i}$
${\beta _j}$ ：输出层第j个神经元接收到的输入 $\beta_j = \sum_{h=1}^q w_{hj} b_h$ ，其中