本文通过简单的实验说明lstm中 state与output之间的关系
假设参数如下:
batch_size = 4 # 训练语料中一共有4句话
sequeue_len = 5 # 每句话只有5个词语
ebedding = 6 # 每个词语的词向量维度为 6
hidden_size = 10 # 神经元个数为10
(1)output说明
首先,比方说我们训练语料一共有4句话,每句话有5个词语,每个词语ebedding为6个维度,所以输入数据的
shape=[4,5,6]
然后,经过一个或者多个神经元为10的 cell,(多个cell也是串联的,所以最后结果也就只有一份)得到 output 和 state。
output shape = [4,5,10]
最后,output[:, -1, :] 我们取每句话中最后一个时刻(词语)的输出作为下一步的输入(相当与用最后一个时刻的输出来表示这句话),这样,就得到了 4 x 10 的矩阵。
(2)state说明
state 是个tuple(c, h)
state = LSTMStateTuple(c=array([4,10], dtype=float32), h=array([4,10], dtype=float32))
说明:每句话经过当前cell后会得到一个state,状态的维度就是隐藏神经元的个数,此时与每句话中包含的词语个数无关,这样,state就