把握torch.nn.RNN的输入输出维度

最新推荐文章于 2024-04-24 00:02:52 发布

weixin_58411309

最新推荐文章于 2024-04-24 00:02:52 发布

阅读量470

点赞数 9

文章标签： rnn 深度学习 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58411309/article/details/135416117

版权

对于一个rnn_out, rnn_hidden = nn.RNN(input_size=input_size, hidden_size=hidden_size, batch_first=True, bidirectional, num_layers=num_layers), 其输入维度为(batch_size, seq_length, input_size)，其输出维度有如下通项：

rnn_out.shape = (batch_size, seq_length, hidden_size*num_directions)其中 num_directions为1或2，分别对应单项和双向RNN
rnn_hidden.shape = (num_layers*num_directions, batch_size, hidden_size)

测试代码：

import torch
import torch.nn as nn

# 定义输入序列
input_size = 10  # 输入特征的维度
seq_len = 8  # 序列长度
batch_size = 3  # 批次大小

input_seq = torch.randn(batch_size, seq_len, input_size)

# 使用nn.RNN
rnn_layer = nn.RNN(input_size=input_size, hidden_size=20, batch_first=True, bidirectional=True, num_layers=2)
rnn_out, rnn_hidden = rnn_layer(input_seq)

print("Using nn.RNN:")
print("Input shape:", input_seq.shape)
print("Output shape:", rnn_out.shape)
print("Hidden shape:", rnn_hidden.shape)

nn.RNN返回两个值，rnn_out和rnn_hidden，前者为整个序列的隐藏状态，后者为最后一个单元的隐藏状态，后者其实是被前者包含的，可以用如下代码验证：

当bidirectional=False 时（单向单/多层）：

# 最后一个隐藏状态
torch.equal(rnn_out[:, -1, :], rnn_hidden[-1, :, :].squeeze(dim=0))

当bidirectional=True 时（双向单/多层）：

# 正向的最后一个隐藏状态
torch.equal(rnn_out[:, -1, :hidden_size], rnn_hidden[-2, :, :].squeeze(dim=0))

# 逆向的最后一个隐藏状态
torch.equal(rnn_out[:, 0, hidden_size:], rnn_hidden[-1, :, :].squeeze(dim=0))

均应返回True

weixin_58411309

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
把握torch.nn.RNN的输入输出维度

其中 num_directions为1或2，分别对应单项和双向RNN。
复制链接

扫一扫

weixin_58411309 CSDN认证博客专家 CSDN认证企业博客

码龄3年

2: 原创

185万+: 周排名

21万+: 总排名

2059: 访问

: 等级

89: 积分

5: 粉丝

10: 获赞

0: 评论

9: 收藏

私信

关注

热门文章

最新评论

把握torch.nn.RNN的输入输出维度
CSDN-Ada助手: 非常棒的博文！你对torch.nn.RNN的输入输出维度进行了很好的解释。非常鼓励你继续创作下去，分享更多关于深度学习的知识。在深入了解torch.nn.RNN之外，你可能还会对以下扩展知识感兴趣： 1. LSTM（Long Short-Term Memory）：它是一种特殊的RNN结构，能够更好地处理长期依赖关系。在实际应用中，LSTM经常被用来解决序列建模的问题。 2. GRU（Gated Recurrent Unit）：与LSTM类似，GRU也是一种用于处理序列数据的RNN结构。相对于LSTM，GRU的计算效率更高，参数更少，但在某些情况下可能表现得稍逊一筹。 3. 注意力机制（Attention Mechanism）：它是一种用于序列建模的技术，可以使模型更加专注于输入序列中的关键信息。注意力机制在机器翻译、图像描述生成等任务中都有广泛的应用。希望这些扩展知识对你有所帮助，期待看到你更多的博文！继续努力，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

Tensorflow报错2023-11-01 11:03:24.835507: I tensorflow/core/platform/cpu_feature_guard.cc:142] This Te

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。