MindSpore数据集加载-GeneratorDataset卡住、卡死

MindSpore可以自定义Python数据源,通过迭代该数据源构造数据集。有点类似PyTorch的DataLoader。

相关的API可以参考:mindspore.dataset.GeneratorDataset

自定义GeneratorDataset处理数据集时,混用numpy.ndarray  和 mindspore.Tensor 的操作会出现卡死

GeneratorDataset接口自定义的数据集,脚本如下:

原因分析:

猜测在自定义的数据处理中,存在numpy.ndarray -> mindspore.Tensor -> numpy.ndarray的混用过程,并且错误地使用numpy.array(Tensor)做转换,导致GIL锁得不到释放,GeneratorDataset不能正常工作。

打印堆栈分析后证明这个猜想,堆栈:

这个堆栈可以用py-spy这个工具获得,主要是为了看每一个进程目前运行的所在位置(神器啊!!!

GeneratorDataset处理数据卡住问题,一般为竞争GIL导致的死锁问题,推荐使用 py-spy dump -pid {PID}来定位。

解决办法:

  • 在GeneratorDataset的第一个入参`source`的定义时,涉及到Python function中全部使用numpy.ndarray来替代Tensor
  • 使用Tensor.asnumpy()方法替换numpy.array(Tensor)

对于这个问题,可以在代码的218行,把np.array(image)和np.array([record.label]) 换成 image.asnumpy()和record.label.asnumpy()

其他错误相关帖:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值