打卡第4天,详细了解MindSpore的数据集Dataset的使用。
数据是深度学习的基础,高质量的数据输入将在整个深度神经网络中起到积极作用。MindSpore提供基于Pipeline的数据引擎,通过数据集(Dataset)和数据变换(Transforms)实现高效的数据预处理。其中Dataset是Pipeline的起始,用于加载原始数据。mindspore.dataset
提供了内置的文本、图像、音频等数据集加载接口,并提供了自定义数据集加载接口。
from mindspore.dataset import vision, MnistDataset, GeneratorDataset
1. 数据集加载
可以使用mindspore.dataset
进行加载的方法。但是要注意:mindspore.dataset
提供的接口仅支持解压后的数据文件。
train_dataset = MnistDataset("MNIST_Data/train", shuffle=False)
2. 数据集迭代
可以用create_tuple_iterator或create_dict_iterator接口创建数据迭代器,迭代访问数据。访问的数据类型默认为Tensor
;若设置output_numpy=True
,访问的数据类型为Numpy
。
3. 数据集操作
Mindspore的
Pipeline的设计理念使得数据集的常用操作采dataset=dataset.operation()
的异步执行方式,执行操作返回新的Dataset,此时不执行具体操作,而是在Pipeline中加入节点,最终进行迭代时,并行执行整个Pipeline。
3.1 shuffle
数据集随机shuffle
可以消除数据排列造成的分布不均问题。
3.2 map
map
操作是数据预处理的关键操作,可以针对数据集指定列(column)添加数据变换(Transforms),将数据变换应用于该列数据的每个元素,并返回包含变换后元素的新数据集。
3.3 batch
将数据集打包为固定大小的batch
是在有限硬件资源下使用梯度下降进行模型优化的折中方法,可以保证梯度下降的随机性和优化计算量。
4. 自定义数据集
对于MindSpore暂不支持直接加载的数据集,可以构造自定义数据加载类或自定义数据集生成函数的方式来生成数据集,然后通过GeneratorDataset
接口实现自定义方式的数据集加载。GeneratorDataset
支持通过可随机访问数据集对象、可迭代数据集对象和生成器(generator)构造自定义数据集。
4.1 可随机访问数据集
可随机访问数据集是实现了__getitem__
和__len__
方法的数据集,表示可以通过索引/键直接访问对应位置的数据样本。
4.2 可迭代数据集
可迭代的数据集是实现了__iter__
和__next__
方法的数据集,表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。
4.3 生成器
生成器也属于可迭代的数据集类型,其直接依赖Python的生成器类型generator
返回数据,直至生成器抛出StopIteration
异常。
5. 总结
-
数据集是深度学习研究的基石。了解在MindSpore框架下,如何有效地加载、处理和迭代数据集对于模型训练至关重要。
-
MindSpore的数据集模块提供了一系列工具,用于加载数据、进行数据变换和预处理,对于数据集的处理非常便捷、灵活。
-
通过自定义数据集,可以根据自己的需求来构建和优化数据加载流程,这对于处理特定类型的数据或实验设置非常有用。
-
理解数据集的操作,可以有助于更好地设计实验,例如通过不同的数据增强方法来提高模型的泛化能力。
-
MindSpore的数据示例教程提供了实用的代码示例和详细的文档,对于快速上手和理解框架的功能非常有帮助。