独家解读 | 矩阵视角下的BP算法

本文从标量和矩阵视角解读反向传播(BP)算法,揭示其在神经网络参数更新中的作用。通过矩阵运算简化梯度计算,避免计算冗余,阐述BP算法如何利用链式法则高效地求解各层参数梯度。
摘要由CSDN通过智能技术生成

作者:孙裕道

背景介绍

有深度学习三巨头之称的YoshuaBengio、Yann LeCun、Geoffrey Hinton共同获得了2018年的图灵奖,得奖理由是他们在概念和工程上取得的巨大突破,使得深度神经网络成为计算的关键元素。其中九项选定的技术成就分别是:反向传播,玻尔兹曼机,提出卷积神经网络,序列的概率建模,高维词嵌入与注意力机制,生成对抗网络,对卷积神经网络的修正,改进反向传播算法,拓宽神经网络的视角。这其中两项成就技术与反向传播有关。

图1:深度学习三剑客

关注文章公众号

对话框回复“ 反向传播 ”获取反向传播资料


BP算法前言

神经网络参数的更新的时候,经常会混淆两个概念链式法则与BP 算法。BP算法其实是链式法则求解参数梯度的一种优化方法,它可以简化梯度计算量,降低计算的冗余度。当我们提到BP反向传播的时候,不禁会问反向传播的对象是什么呢,BP算法的目的是求解各个层参数的梯度,而传播的对象其实是“变种”的误差信息。

标量视角下的链式法则

3.1 标量形式的神经网络

下图为标量形式的神经网络,并且为了说明方便不考虑偏置项。

图2:神经网络的标量形式

给定一个训练样本   ,假设模型输出为   ,则均方误差为

根据梯度下降法更新模型的参数,则各个参数的更新公式为:

 

链式法则求解   会有如下推导形式:

链式法则求解   会有如下推导形式: 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值