ERROR:[MD]:unexpected error.Not a valid index
问题现象,单卡不报错,可以正确执行训练流程,但是切换到分布式训练的时候报图中的错误,经过排查发现错误的原因分布式采样使用错误。
报错时使用方式如下:
分布式采样和随机采样的顺序需要调换一下,正确的应该是先进行随机采样,然后再进行分布式采样
正确的修改如下:
修改之后能够正确的进行分布式训练
ERROR:[MD]:unexpected error.Not a valid index
问题现象,单卡不报错,可以正确执行训练流程,但是切换到分布式训练的时候报图中的错误,经过排查发现错误的原因分布式采样使用错误。
报错时使用方式如下:
分布式采样和随机采样的顺序需要调换一下,正确的应该是先进行随机采样,然后再进行分布式采样
正确的修改如下:
修改之后能够正确的进行分布式训练