神经网络与深度学习周总结（1）：线性分类与BP网络

最新推荐文章于 2024-08-03 19:57:45 发布

ciervaa

最新推荐文章于 2024-08-03 19:57:45 发布

阅读量859

点赞数 16

文章标签：深度学习神经网络分类

本文链接：https://blog.csdn.net/weixin_52144735/article/details/137197549

版权

1.线性回归与线性分类

1.1 线性回归

线性回归的定义为：利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

其学习过程如下图所示：

1.2 线性分类

线性分类的定义为：线性分类通过线性分类器进行，线性分类器则通过特征的线性组合来做出分类决定，将样本进行分类，以达到某种目的。简言之，样本通过直线（或超平面）可分。其示意图如下。

线性分类器输入特征向量，输出类别。针对的问题若是二分类问题，则输出0和1，若是属于某类的概率，则输出0-1之间的数。因此需要找到构造这条二分类的“分界直线”的方法。

2.感知机模型

2.1 感知机模型

感知机模型是神经网络和支持向量机的基础，是一种二分类线性分类模型。该模型能够找到一个将不同类别的样本正确分类的超平面，从而实现对未来样本分类的预测。

2.2 多层前馈网络与BP算法

2.2.1 多层感知机

基于感知机模型，通过一个简单的神经元可以对线性问题进行分类，但是对于XOR（异或）问题，一个神经元无法完成。XOR问题通常指在机器学习和模式识别中一种常见的二分类问题，其无法进行线性分类，是一种线性不可分问题。

通过加一层隐节点（单元）为三层网络，可以解决XOR问题。由下图所示，由输入得到两个隐节点、一个输出层节点的输出，此结构被称为多层感知机。

多层感知机的具体定义为：在输入和输出层间加一或多层隐单元，也称多层前馈神经网络。三层感知器可识别任一凸多边形或无界的凸区域，更多层感知网络可识别更为复杂的图形。

多层感知网络有如下定理：

定理1 若隐层节点（单元）可任意设置，用三层阈值节点的网络，可以实现任意的二值逻辑函数。

定理2 若隐层节点（单元）可任意设置，用三层S型非线性特性节点的网络，可以一致逼近紧集上的连续函数或按范数逼近紧集上的平方可积函数。

2.2.2 多层前馈网络

多层感知机是一种多层前馈网络，由多层神经网络构成，每层网络将输出传递给下一层网络。神经元间的权值连接仅出现在相邻层之间，不出现在其他位置。如果每一个神经元都连接到上一层的所有神经元（除输入层），则称为全连接网络。其结构如下图所示。

2.2.3 BP算法

多层前馈网络的反向传播（BP）学习算法，简称为BP算法，梯度下降法在多层前馈网络中的应用。BP学习算法由正向传播和反向传播组成：

1.正向传播是输入信号从输入层经隐层，传向输出层，若输出层得到了期望的输出，则学习算法结束；否则转至反向传播。

2.反向传播是将误差(样本输出与网络输出之差)按原联接通路反向计算，由梯度下降法调整各层节点的权值和阈值，使误差减小。

BP算法的基本计算过程为：

1.设置初始权系数w0为较小的随机非零值；

2.给定输入/输出样本对计算网络进行输出，完成前向传播；

3.计算目标函数J。若J小于预期误差，则训练成功，退出；否则进行第4步；

4.反向传播计算。由输出层按梯度下降法将误差反向传播，逐层调整权值。

但BP算法仍具有算法非全局收敛、收敛速度慢等缺点。

2.2.4 性能优化

BP算法使用数据包括训练数据、验证数据及测试数据，通常三者比例为70%、15%、15%或60%、20%、20%，当数据很多时，训练和验证数据可以适当减少。

可通过模型初始化、K折交叉验证、L2正则化、暂退等技巧对BP算法进行训练使用。

BP算法在使用过程中，会出现病态曲率的问题，如下图所示。

图为损失函数轮廓，在进入以蓝色标记的山沟状区域之前随机开始。颜色实际上表示损失函数在特定点处的值的大小，红色表示最大值，蓝色表示最小值。最大值与最小值之间的山沟即为病态曲率，“山沟”的存在使算法难以达到最小值。因此需要进行性能优化。

1. 动量法

动量法更新公式：

具体算法为：

2.自适应梯度算法

每个参数的学习率各参数会缩放反比于其历史梯度平方值总和的平方根，即具有较大偏导的参数相应有一个较大的学习率，具有较小偏导的参数对应一个较小的学习率。

(1) AdaGrad算法

但该算法的学习率是单调递减的，训练后期学习率过小会导致训练困难，甚至提前结束，因此需要设置一个全局的初始学习率。

(2) RMSProp算法

RMSProp算法能够解决AdaGrad方法中学习率过度衰减的问题。

(3)Adam算法

Adam算法在RMSProp算法的基础上更进一步：加入了历史梯度平方的指数衰减平均；保留了历史梯度的指数衰减平均。可比喻为一个带有摩擦力的小球在误差面上倾向于平坦的极小值。

ciervaa

关注

16
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习周总结（1）：线性分类与BP网络

线性分类的定义为：线性分类通过线性分类器进行，线性分类器则通过特征的线性组合来做出分类决定，将样本进行分类，以达到某种目的。简言之，样本通过直线（或超平面）可分。针对的问题若是二分类问题，则输出0和1，若是属于某类的概率，则输出0-1之间的数。每个参数的学习率各参数会缩放反比于其历史梯度平方值总和的平方根，即具有较大偏导的参数相应有一个较大的学习率，具有较小偏导的参数对应一个较小的学习率。但该算法的学习率是单调递减的，训练后期学习率过小会导致训练困难，甚至提前结束，因此需要设置一个全局的初始学习率。
复制链接

扫一扫