深入理解神经网络中的反向传播过程

最新推荐文章于 2024-06-24 17:06:38 发布

turbo624

最新推荐文章于 2024-06-24 17:06:38 发布

阅读量1.3k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_44110891/article/details/89410304

版权

本文详细介绍了神经网络中的反向传播过程，从计算总误差、输出层到隐含层的权值更新，再到隐含层到隐含层的权值更新。通过实例展示了如何通过梯度下降法不断迭代更新权重，以减小损失函数并优化神经网络的性能。

摘要由CSDN通过智能技术生成

神经网络目录

写在前面
神经网络结构
神经网络作用
神经网络传播过程
总结
python实现代码

写在前面

本文转自
作者：Charlotte77
出处：http://www.cnblogs.com/charlotte77/

最近几天在看深度学习的东西，对于神经网络之前了解过一点，但一直搞不懂具体，云里雾里的感觉，看了这个博主的文章终于弄懂了，讲得很清楚，细节都很到位（但是到自己会推理整个公式加理解整个代码也用了三天时间呢）同时参考https://blog.csdn.net/u014162133/article/details/81181194这个文章总算弄明白了整个多层感知机结构。

下面是参考上述两篇文章自己重新整理的内容

神经网络结构

两层结构的叫感知器，多层结构叫感知机，也称为神经网络。

上图是典型的三层神经网络的基本构成。LayerL1是输入层，LayerL3是输出层，中间LayerL2是隐含层（除了首尾的输入输出层，中间都是隐含层，所以隐含层有多个）

这里只做简单介绍，如果完全不懂神经网络结构，可以参考Poll写的笔记：[Mechine Learning & Algorithm] 神经网络基础

神经网络作用

神经网络的作用就是我们预先给它大量的数据(包含输入和输出)来进行训练，训练完成后，我们希望它对于将来的真实环境的输入也能给出一个令我们满意的输出。这里不知道怎么训练的先看下文，后面再做总结。

神经网络传播过程

假设，你有这样一个网络层：

第一层是输入层，包含两个神经元i1，i2，和截距项b1；第二层是隐含层，包含两个神经元h1,h2和截距项b2，第三层是输出o1,o2，每条线上标的wi是层与层之间连接的权重，激活函数我们默认为sigmoid函数。

这里为什么要加截距项，可以参考文章神经网络中w,b参数的作用（为何需要偏置b的解释）
简单来说就是如果没有偏置b的话，所有的线性分割线都是经过原点的，但是现实问题并不会都是经过原点线性可分的，情况更复杂。

为什么要有激活函数，它表示神经元的输入和输出之间具有的某种函数关系，只有输入超过一定标准时才会产生输出。sigmoid函数是最常用的默认的激活函数。

现在对神经网络结构赋上初值，如下图：

　其中，

输入数据 i1=0.05，i2=0.10;

初始权重 w1=0.15,w2=0.20,w3=0.25,w4=0.30;w5=0.40,w6=0.45,w7=0.50,w8=0.55

输出数据 o1=0.01,o2=0.99;

目标：给出输入数据i1,i2(0.05和0.10)，使输出尽可能与原始输出o1,o2(0.01和0.99)接近。

前向传播

前向传播也可以叫作前馈或者正向传播，就是指给神经网络的输入一层一层向前计算输出，最终得到一个输出。（指向输出层的方向为向前）

1.输入层---->隐含层

计算神经元h1的输入加权和：

神经元h1的输出o1:(此处用的激活函数为sigmoid函数)：

同理，可计算出神经元h2的输出o2：

2.隐含层---->输出层

计算输出层神经元o1和o2的值：

至此前向传播的过程就结束了，我们得到输出值为[0.75136079 , 0.772928465]，与实际值[0.01 , 0.99]相差还很远。所以要尽可能地减少误差。

误差怎么算？
误差也就是神经网络中所称为的损失函数(或称代价函数、Loss函数)。
现假设神经网络输出的真实结果记为fi，期望结果记为yi。使用数学工具中的MAE（Mean Absolute Error,平均绝对误差）
或MSE（Mean Squared Error，均方误差）
还有其他的方法函数。Loss值越大，说明神经网络的输出结果越远离我们的期望，所以要尽可能地使Loss值越小。可以发现x（输入）是固定的，yi&#