MindSpore 中的数据集(Dataset)| 昇思25天学习打卡营第 3 天 | wordworld

数据集(Dataset)定义

数据集是深度神经网络的输入数据。MindSpore 有自己的数据集格式(MindRecord),支持在 python 中用 mindspore.dataset.MnistDataset 加载。

MindSpore  数据处理引擎

数据集一般是按列组织的,每一列具有相同的行数。不同格式的数据庥,对其各列及元素的组织有不同。

迭代(遍历)Dataset

MindSpore 的数据集都继承自 mindspore.dataset.Dataset 接口。这个接口封装了 create_tuple_iteratorcreate_dict_iterator 函数。两个函数分别用来创建列表迭代器、字典迭代器。

Dataset 操作

对 Dataset 的操作,并不是在方法调用的时候执行,而是延迟到迭代时。调用方法,其实是编排迭代的 pipeline,真正迭代数据集时才执行 pipeline。这样可以根据需要,定制迭代的方式,控制操作的数据范围。最常见的 Dataset 操作方法有 shuffle、map、batch 等。

  • shuffle( buffer_size )
    乱序
  • map( transform, column_names )
    对指定列,添加数据变换(Transforms)
  • batch( batch_size )
    打包,增加数据维度,每一维包含 batch_size 行数据。

自定义格式 Dataset 的加载

对于 MindSpore 支持的 Dataset 格式,会封装相应 Dataset 类型,把数据路径传给构造函数参数,即可完成数据加载。

对于 MindSpore 未支持的 Dataset 格式,需根据数据集的特性,自己定义 Dataset 的 loader 类,然后把 loader 类传递给 GeneratorDataset 接口的 source 参数,实现自定义格式数据集的加载 。

mindspore.dataset.GeneratorDataset( source=loader, coloumn_names=[] )

参考

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

游戏AI开发者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值