长短时记忆网络的训练
熟悉我们这个系列文章的同学都清楚,训练部分往往比前向计算部分复杂多了。LSTM的前向计算都这么复杂,那么,可想而知,它的训练算法一定是非常非常复杂的。现在只有做几次深呼吸,再一头扎进公式海洋吧。
LSTM训练算法框架
LSTM的训练算法仍然是反向传播算法,对于这个算法,我们已经非常熟悉了。主要有下面三个步骤:
- 前向计算每个神经元的输出值,对于LSTM来说,即 ft 、 it 、 ct 、 ot 、 ht 五个向量的值。计算方法已经在上一节中描述过了。
- 反向计算每个神经元的误差项 δ 值。与循环神经网络一样,LSTM误差项的反向传播也是包括两个方向:一个是沿时间的反向传播,即从当前t时刻开始,计算每个时刻的误差项;一个是将误差项向上一层传播。
- 根据相应的误差项,计算每个权重的梯度。
关于公式和符号的说明
首先,我们对推导中用到的一些公式、符号做一下必要的说明。
接下来的推导中,我们设定gate的激活函数为sigmoid函数,输出的激活函数为tanh函数。他们的导数分别为:
从上面可以看出,sigmoid和tanh函数的导数都是原函数的函数。这样,我们一旦计算原函数的值,就可以用它来计算出导数的值。
LSTM需要学习的参数共有8组,分别是:遗忘门的权重矩阵 Wf 和偏置项 bf 、输入门的权重矩阵 Wi 和偏置项 bi 、输出门的权重矩阵 Wo 和偏置项 bo ,以及计算单元状态的权重矩阵 Wc 和偏置项 bc 。因为权重矩阵的两部分在反向传播中使用不同的公式,因此在后续的推导中,权重矩阵 Wf 、 Wi 、 Wc 、 Wo 都将被写为分开的两个矩阵: Wfh 、 Wfx 、 Wih 、 Wix 、 Woh 、 Wox 、 Wch 、 Wcx 。
我们解释一下按元素乘 ∘ 符号。当 ∘ 作用于两个向量时,运算如下:
当 ∘ 作用于一个向量和一个矩阵时,运算如下:
当 ∘ 作用于两个矩阵时,两个矩阵对应位置的元素相乘。按元素乘可以在某些情况下简化矩阵和向量运算。例如,当一个对角矩阵右乘一个矩阵时,相当于用对角矩阵的对角线组成的向量按元素乘那个矩阵:
当一个行向量右乘一个对角矩阵时,相当于这个行向量按元素乘那个矩阵对角线组成的向量:
上面这两点,在我们后续推导中会多次用到。
在t时刻,LSTM的输出值为 ht 。我们定义t时刻的误差项 δt 为:
注意,和前面几篇文章不同,我们这里假设误差项是损失函数对输出值的导数,而不是对加权输入 netlt 的导数。因为LSTM有四个加权输入,分别对应 ft 、 it 、 ct 、 ot ,我们希望往上一层传递一个误差项而不是四个。但我们仍然需要定义出这四个加权输入,以及他们对应的误差项。