作者:孙裕道
一
背景介绍
有深度学习三巨头之称的YoshuaBengio、Yann LeCun、Geoffrey Hinton共同获得了2018年的图灵奖,得奖理由是他们在概念和工程上取得的巨大突破,使得深度神经网络成为计算的关键元素。其中九项选定的技术成就分别是:反向传播,玻尔兹曼机,提出卷积神经网络,序列的概率建模,高维词嵌入与注意力机制,生成对抗网络,对卷积神经网络的修正,改进反向传播算法,拓宽神经网络的视角。这其中两项成就技术与反向传播有关。
图1:深度学习三剑客
关注文章公众号
对话框回复“ 反向传播 ”获取反向传播资料
二
BP算法前言
神经网络参数的更新的时候,经常会混淆两个概念链式法则与BP 算法。BP算法其实是链式法则求解参数梯度的一种优化方法,它可以简化梯度计算量,降低计算的冗余度。当我们提到BP反向传播的时候,不禁会问反向传播的对象是什么呢,BP算法的目的是求解各个层参数的梯度,而传播的对象其实是“变种”的误差信息。
三
标量视角下的链式法则
3.1 标量形式的神经网络
下图为标量形式的神经网络,并且为了说明方便不考虑偏置项。
图2:神经网络的标量形式
给定一个训练样本 ,假设模型输出为 ,则均方误差为
根据梯度下降法更新模型的参数,则各个参数的更新公式为:
链式法则求解 会有如下推导形式:
链式法则求解 会有如下推导形式: