反向传播的数学推导

最新推荐文章于 2023-03-15 09:58:40 发布

牛麦康纳

最新推荐文章于 2023-03-15 09:58:40 发布

阅读量1.4k

点赞数

分类专栏：深度学习文章标签：神经网络深度学习反向传播算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yejingtao703/article/details/79281438

版权

深度学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

前一篇手写识别的博文《深度学习数学基础—反向传播》中已经简单分析和推导过反向传播的原理，但是基于特定的场景给出的推导过程，现在我们再来系统的加深下神经网络反向传播的算法理解。

首先定义几个变量。

我们用

来表示(l-1)层第k节点到l层第j节点的权重w

例如：

我们用来表示l层第j节点的偏差b，用来表示l层j节点所受到的总影响。

例如：

可以分析得出整个神经网络正向是个递归推进的过程，公式如下：

其中σ是转换函数，在手写识别案例中σ就是sigmoid函数。

公式用矩阵简化后为：

用再对公式进行一次简化：

整个网络输出的误差计算公式：

这里需要注意前面用的都是小写的l，对应着具体的l层节点的运算；最终误差这里用的是大写的L，对应着整个神经网络的总体的运算。

以上都是铺垫，下面我们来真正看一下一旦我们对神经网络中的某个节点做出改变会如何影响到整个网络。

如图对l层第j节点有个小恶魔做了微小的变动

改变后对该节点的产出变为：，对α的的影响是

假设

套用公式三后结果为：

前面介绍过L大小写的区别了，小恶魔对整个网络引起的差异速率为：

对公式四求导带入上面公式得：

PS：这是很重要的一步，因为万事开头难，对于反向传播来说整个网络output层反倒是修正时的最原始的input，到目前为止我们已经有了这个“input”的计算公式了，下面要解决的就是如何将其一点点往真正的input方向传递。

上面是站在整个网络上宏观的来分析对最终的输出造成的影响，下面我们聚焦到小恶魔只对后面一层(也就是l+1层的影响速率)

根据公式二推导出：

PS：这是另一个里程碑式的成功，因为我们具备了从l+1层计算l层误差率的方式。

有了上面2个ps的理论，我们反向传播LàL-1àL-2à……l+1àlàl-1à….这条路就彻底打通了。

我们上面的小恶魔改动的是，最终我们产出的是每层的权重和偏差，再根据公式二求偏导：

这两个结果很容易推导的过来，但是给我们的启发是在求偏差还好通过结果数据可以计算的出来，但是在求每层权重的时候需要用到本节点的输入（也就是上一个节点的输出），所以我们在正向的运算时就需要把这些数据维护起来，否则无法完成反向传播的过程。

于是理解了上面的推导过程我们在处理反向传播时就有了一套很成熟的方法论了：

第一步：

将原始出入x作为α1的输入

第二步：

利用正向运算记得维护每层的输出。

第三步：

利用求网络总输出的误差率

其实这么写是为了方便理解，因为我们这里的求误差的方式是公式四，如果不是用欧氏距离来求误差需要修改等号右边第一个括号内的内容。

第四步：

利用从后向前求每一层的误差率

第五步：

利用求每一层的权重和偏差

第六步：

设置好步长和循环次数不断调优。

有了本篇的理论基础再回头看深度学习数学基础—反向传播求导过程和代码应该如虎添翼了吧。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
反向传播的数学推导

前一篇手写识别的博文《深度学习数学基础—反向传播》中已经简单分析和推导过反向传播的原理，但是基于特定的场景给出的推导过程，现在我们再来系统的加深下神经网络反向传播的算法理解。首先定义几个变量。我们用来表示(l-1)层第k节点到l层第j节点的权重w例如：我们用来表示l层第j节点的偏差b，用来表示l层j节点所受到的总影响。例如：可以分析得
复制链接

扫一扫

专栏目录

牛麦康纳

CSDN认证博客专家 CSDN认证企业博客

码龄15年

221: 原创

2万+: 周排名

7427: 总排名

73万+: 访问

: 等级

7809: 积分

731: 粉丝

424: 获赞

227: 评论

1094: 收藏

私信

关注

热门文章

分类专栏

kubernetes-叶工好容 7篇
混沌工程 6篇
API网关 8篇
应届求职 4篇
金丝雀分析 1篇
自动化测试 1篇
互联网 23篇
Spring boot 6篇
CSDN 2篇
Spring cloud 12篇
Spring微服务 5篇
Docker 6篇
MQ 3篇
ElasticSearch 14篇
Http与信息安全 11篇
Linux 11篇
Java 13篇
Redis 6篇
Python 17篇
算法 10篇
机器学习 16篇
深度学习 6篇
数据库 3篇
OpenStack 2篇
ansible 2篇
Terraform 1篇
云计算 10篇
持续集成 14篇
Spinnaker 18篇

最新评论

叶工好容2-云原生网络
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://test-cms-ccloud.csdn.net/ccloud/topics/600592700。
叶工好容2-云原生网络
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/615225413。
LinkedHashMap引发的内存泄漏以及解决过程
secowo: removeEldestEntry 并发的时候为什么不生效呢？按照逻辑来说，只要有超过限制的值输入，那么就会把他移除掉
Jenkins Pipeline的实战详解
asaKing2: 作者你好，请问你这个jenkins脚本是写在jenkinsfile吗
Spring Cloud Gateway VS Netflix Zuul2
山野小生: 写的真好，涨知识了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。