3.多层前馈网络与误差反算算法

川330

已于 2023-04-01 11:31:38 修改

阅读量209

点赞数

分类专栏：深度学习原理与实现文章标签：算法网络深度学习

于 2023-04-01 11:29:01 首次发布

本文链接：https://blog.csdn.net/weixin_69152601/article/details/129894517

版权

深度学习原理与实现专栏收录该内容

4 篇文章 0 订阅

订阅专栏

3.1多层感知机模型

假设当前我们需要进行一个分类任务，通过一个函数关系式将两类点进行区分，第一类点为（0，0）、（1，1），第二类点为（0，1）、（1，0），此时我们发现仅仅通过线性关系式已经无法完成此类分类任务：

为解决此类问题，一种多层感知机模型便被提出，即通过在输入层和输出层间加一层或多层隐单元来实现不同样本点的分类任务，该模型即为我们之前所提到的多层前馈神经网络：

通过增加隐含层的节点数量，实现多维空间平面的构造，来实现不同样本点的分类任务，更多层感知器网络，可识别更为复杂的图形。其中，多层感知机有着以下定理：

定理1　若隐层节点（单元）可任意设置，用三层阈值节点的网络，可以实现任意的二值逻辑函数。

定理2　若隐层节点（单元）可任意设置，用三层S型非线性特性节点的网络，可以一致逼近紧集上的连续函数或按范数逼近紧集上的平方可积函数。

简而言之，对于我们平时遇到的任意二维空间的坐标点分类任务，可以通过三个节点的隐含层神经网络完成分类。下面，对神经网络调整权重的方法—梯度下降法进行介绍。

在正式开始介绍前，有必要先对前向传播、误差反传两个过程进行简要的介绍：

前向传播（前馈运算）：

无论训练模型时计算误差还是模型训练完毕后获得样本预测，卷积神经网络的前馈运算都较直观。同样以图像分类任务为例，假设网络已训练完毕，即其中参数ω1, . . . , ωL-1 已收敛到某最优解，此时可用此网络进行图像类别预测。预测过程实际就是一次网络的前馈运算：将测试集图像作为网络输入x1 送进网络，之后经过第一层操作 ω1 可得 x2，依此下去……直至输出xL ∈ RC。其中， xL 是与真实标记同维度的向量。

在利用交叉墒损失函数训练后得到的网络中，xL 的每一维可表示 x1 分别隶属 C 个类别的后验概率。

这样，可以通过下式得到输入图像x1对应的预测标记：

反向传播（反馈运算）：

深度学习模型采用随机梯度下降法和误差反向传播进行模型参数更新。

批处理的随机梯度下降法在训练模型阶段随机选取 n 个样本作为一批样本，先通过前馈运算得到预测并计算其误差，后通过梯度下降法更新参数，梯度从后往前逐层反馈，直至更新到网络的第一层参数，这样的一个参数更新过程称为一个“批处理过程”。不同批处理之间按照无放回抽样遍历所有训练集样本，遍历一次训练样本称为“一轮”（epoch）。在进行反馈运算的过程中，误差通过导数层层传递，对每个参数更新起到了作用，因此这一过程也成为误差的反向传递。

3.2梯度下降法

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。在高等数学中，我们已经学习了偏导数，能够对任意参数进行偏导，来获得该参数变化最快的方向向量。在神经网络中，我们处理问题的本质是为了找到一个最优的损失函数f(x)，使得其在预测问题上有着最小的误差：