RNN里的BPTT算法

最新推荐文章于 2024-08-05 11:15:19 发布

Doooer

最新推荐文章于 2024-08-05 11:15:19 发布

阅读量3.9k

点赞数 3

分类专栏：反向传播算法文章标签：神经网络

本文链接：https://blog.csdn.net/yqmind/article/details/78060715

版权

本文介绍了RNN循环神经网络的学习过程，重点解析了BPTT（Backpropagation Through Time）算法的推导。通过BPTT，作者对RNN中权重的梯度计算有了更清晰的理解，尤其是在状态之间传递导致的复杂性。文章详细阐述了如何计算∂V∂L、∂W∂L和∂U∂L，并总结了不同时刻的梯度求和过程。

摘要由CSDN通过智能技术生成

这两天对RNN循环神经网络进行了学习，由一无所知到现在对什么是RNN以及它的前向传播和反向传播有了认识，尤其是BPTT算法的推导有些繁琐，但是推过一次后，对RNN反向传播求梯度的过程有了更清晰的认识。

下面是朴素的RNN循环神经网络图。（图1）
RNN网络图

我在写博客前，自己先手写了一份推导过程。（图2）
手写BTPP推导

为何BPTT更难？

因为多了状态之间的传递（即隐层单元之间的“交流”），根据前向传播算法，我们知道 $s_t^* = Ws_{t-1} + Ux_t ,$ 而 $s_{t-1} = f(s_{t-1}^*) = f(Ws_{t-2}+Ux_{t-1})$ ,这说明 $s_{t-1}$ 也是关于 $W$ 的式子。

这样层层嵌套下去…就会追溯到 $s_0$ 。可以意识到我们对 $W 、 U$ 的梯度求解是繁琐的，而这正是BPTT的难点所在。对于 $V$ 的梯度求解，并没有受到状态之间传递的影响，因此和我们BP算法求解方式是一样的。

我们用 $*$ 表示element-wise, $\times$ 表示矩阵乘法。
我们采用交叉熵损失函数，即 $L_t = - (y_tlog(o_t)+(1-y_t)log(1-o_t))$
我们定义隐藏层的激活函数为sigmoid函数 $s_t = f(s_t^*)$ ,输出层的激活函数也为sigmoid函数 $o_t = g(o_t^*)$ 。 $s_t*(1-s_t), g' = o_t*(1-o_t)$