【Pytorch】多个数据集联合读取

最新推荐文章于 2024-09-14 08:25:16 发布

yanwan菌

最新推荐文章于 2024-09-14 08:25:16 发布

阅读量2.7k

点赞数 10

分类专栏：模型训练和部署文章标签： python pytorch 深度学习

本文链接：https://blog.csdn.net/weixin_51237675/article/details/112319762

版权

本文介绍了如何在Pytorch中使用ConcatDataset结合MNIST、CIFAR10和CIFAR100等多个数据集进行深度学习训练。通过创建数据集列表和数据信息类，实现对不同数据集的联合读取，方便处理多样化的数据源。

摘要由CSDN通过智能技术生成

深度学习好比炼丹，框架就是丹炉，网络结构及算法就是单方，而数据集则是原材料。现在世面上很多炼丹手册都是针对单一数据集进行炼丹，有了这些手册我们就能够很容易进行炼丹，但为了练好丹，我们常常收集各种公开的数据集，并构建私有数据集，此时，便会遇到如何更好的使用多个数据进行练丹的问题。

本文将使用pytorch这个丹炉，介绍如何联合读取多个原材料，而不是从新制作原材料和标签。

1、Pytorch的ConcatDataset介绍

class ConcatDataset(Dataset):
    """
    Dataset to concatenate multiple datasets.
    Purpose: useful to assemble different existing datasets, possibly
    large-scale datasets as the concatenation operation is done in an
    on-the-fly manner.

    Arguments:
        datasets (sequence): List of datasets to be concatenated
    """

    @staticmethod
    def cumsum(sequence):
        r, s = [], 0
        for e in sequence:
            l = len(e)
            r.append(l + s)
            s += l
        return r

    def __init__(self, datasets):
        super(ConcatDataset, self).__init__()
        assert len(datasets) &g