关于torch.nn.LSTM()的详解（维度，输入，输出）

最新推荐文章于 2025-03-26 18:30:00 发布

Mr.Ygg

最新推荐文章于 2025-03-26 18:30:00 发布

阅读量2.8w

点赞数 41

分类专栏： nlp pytorch Python 文章标签： python 深度学习

本文链接：https://blog.csdn.net/weixin_44201449/article/details/111129248

版权

Python 同时被 3 个专栏收录

15 篇文章

订阅专栏

nlp

4 篇文章

订阅专栏

pytorch

2 篇文章

订阅专栏

本文详细解析了PyTorch中torch.nn.LSTM()函数的使用方法，包括各参数含义、输入输出数据格式及维度要求，适用于已有LSTM算法基础的学习者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

如果您是想了解LSTM算法，您不必往下阅读，因为本博文是关于torch.nn.LSTM()的一些详解，是在读者有LSTM算法思想之后复现LSTM时用到。

输入的参数列表包括:

input_size: 输入数据的特征维数，通常就是embedding_dim(词向量的维度)
hidden_size: LSTM中隐层的维度
num_layers: 循环神经网络的层数
bias: 用不用偏置，default=True
batch_first: 这个要注意，通常我们输入的数据shape=(batch_size,seq_length,embedding_dim),而batch_first默认是False,所以我们的输入数据最好送进LSTM之前将batch_size与seq_length这两个维度调换
dropout: 默认是0，代表不用dropout
bidirectional: 默认是false，代表不用双向LSTM

输入数据包括input, (h_0, c_0):

input: shape = [seq_length, batch_size, input_size]的张量
h_0: shape = [num_layers * num_directions, batch, hidden_size]的张量，它包含了在当前这个batch_size中每个句子的初始隐藏状态，num_layers就是LSTM的层数，如果bidirectional = True,则num_directions = 2,否则就是１，表示只有一个方向
c_0: 与h_0的形状相同，它包含的是在当前这个batch_size中的每个句子的初始细胞状态。h_0,c_0如果不提供，那么默认是０

输出数据包括output, (h_t, c_t):

output.shape = [seq_length, batch_size, num_directions * hidden_size]
它包含的LSTM的最后一层的输出特征(h_t),ｔ是batch_size中每个句子的长度.
h_t.shape = [num_directions * num_layers, batch, hidden_size]
c_t.shape = h_t.shape

h_n包含的是句子的最后一个单词的隐藏状态，c_t包含的是句子的最后一个单词的细胞状态，所以它们都与句子的长度seq_length无关。
output[-1]与h_t是相等的，因为output[-1]包含的正是batch_size个句子中每一个句子的最后一个单词的隐藏状态，注意LSTM中的隐藏状态其实就是输出，cell state细胞状态才是LSTM中一直隐藏的，记录着信息，这也就是博主本文想说的一个事情，output与h_t的关系。