《昇思25天学习打卡营第4天|数据集 Dataset》

最新推荐文章于 2024-09-25 09:27:18 发布

xwang-0415

最新推荐文章于 2024-09-25 09:27:18 发布

阅读量773

点赞数 14

分类专栏：昇思25天学习打卡营文章标签：学习人工智能 python

本文链接：https://blog.csdn.net/weixin_49123292/article/details/140012209

版权

昇思25天学习打卡营专栏收录该内容

25 篇文章 0 订阅

订阅专栏

打卡第4天，详细了解MindSpore的数据集Dataset的使用。

数据是深度学习的基础，高质量的数据输入将在整个深度神经网络中起到积极作用。MindSpore提供基于Pipeline的数据引擎，通过数据集（Dataset）和数据变换（Transforms）实现高效的数据预处理。其中Dataset是Pipeline的起始，用于加载原始数据。mindspore.dataset提供了内置的文本、图像、音频等数据集加载接口，并提供了自定义数据集加载接口。

from mindspore.dataset import vision, MnistDataset, GeneratorDataset

1. 数据集加载

可以使用mindspore.dataset进行加载的方法。但是要注意：mindspore.dataset提供的接口仅支持解压后的数据文件。

train_dataset = MnistDataset("MNIST_Data/train", shuffle=False)

2. 数据集迭代

可以用create_tuple_iterator或create_dict_iterator接口创建数据迭代器，迭代访问数据。访问的数据类型默认为Tensor；若设置output_numpy=True，访问的数据类型为Numpy。

3. 数据集操作

Mindspore的Pipeline的设计理念使得数据集的常用操作采dataset=dataset.operation()的异步执行方式，执行操作返回新的Dataset，此时不执行具体操作，而是在Pipeline中加入节点，最终进行迭代时，并行执行整个Pipeline。

3.1 shuffle

数据集随机shuffle可以消除数据排列造成的分布不均问题。

3.2 map

map操作是数据预处理的关键操作，可以针对数据集指定列（column）添加数据变换（Transforms），将数据变换应用于该列数据的每个元素，并返回包含变换后元素的新数据集。

3.3 batch

将数据集打包为固定大小的batch是在有限硬件资源下使用梯度下降进行模型优化的折中方法，可以保证梯度下降的随机性和优化计算量。

4. 自定义数据集

对于MindSpore暂不支持直接加载的数据集，可以构造自定义数据加载类或自定义数据集生成函数的方式来生成数据集，然后通过GeneratorDataset接口实现自定义方式的数据集加载。GeneratorDataset支持通过可随机访问数据集对象、可迭代数据集对象和生成器(generator)构造自定义数据集。