pytorchDataLoader中调整数据长度不一致问题（lstm等）

最新推荐文章于 2024-05-01 21:39:15 发布

活塞君

最新推荐文章于 2024-05-01 21:39:15 发布

阅读量6.8k

点赞数 5

分类专栏： python pytorch 深度学习文章标签： lstm pytorch python

本文链接：https://blog.csdn.net/weixin_48174100/article/details/120185572

版权

用pytorch做rnn的时候，如果输入数据不一样长，可以用两种方式解决。
一种是自定义collate方法，

#自定义collate_fn
dataloader.DataLoader(dataset,4,True,collate_fn=my_collate)

然后里面写数据和标签载入方式即可

def my_collate(batch):
    data = [item[0] for item in batch]
    target = [item[1] for item in batch]
    return [data, target]

压缩：nn.utils.rnn.pack_padded_sequence
解压是这个pad_packed_sequence

核心思想是对padding补充过的数据进行压缩，这种方式可以加速运算在大数据集中效果较好
（原理是把数据中为0的padding给压缩掉，进入RNN计算的时候直接跳过输出0）

当你拿到长短不一致的数据的时候
第一步自然是PADDING，无论什么框架都一样，自己手写一个就行了

def custompad(X,max_len=10):
    X = torch.Tensor(X)
    m=X.shape[0]
    pad = torch.zeros

关注

专栏目录