如果一张卡batch_size=1可以跑
那样才有机会去使用多卡训练
不然batch_size=1都不能训练成功,那么再怎么分配都不行
————————————————————————————————————————
如果batch_size=8分配到8张卡去跑,那么8张卡每张占1个batch_size=1去跑,
如果batch_size=8分配到7张卡去跑,主卡会占2个batch_size=1去跑,那么剩下7张卡每张占1个batch_size=1去跑,
然后在主卡中汇总数据,所以说:
1、多卡训练对于数据的分配不是智能的,是主卡分最多,其他卡占平均。
2、主卡中负担是最大的,各种数据和框架都要在这里面。