问题描述:
问题
pytorch在训练时采用
ptimizer.zero_grad(),
loss.backward(),
optimizer.step()
这三步流程。
我发现mindspore在这里的设计跟pytorch不一样。
想问一下有没有尽可能改动少的一点的修改方案?
解答:
MindSpore的求导类似pytorch的 torch.autograd.grad(链接torch.autograd.grad — PyTorch 1.12 documentation),将梯度与Tensor剥离,grad操作直接返回梯度,因此不需要 optimizer.zero_grad(), loss.backward() 这两个步骤。
由于 Tensor与梯度剥离,无法直接通过 optimizer.step() 进行参数更新,因此,在MindSpore中更新参数的方式为 optimizer(grads),可以参考 https://www.mindspore.cn/docs/api/zh-CN/r1.5/_modules/mindspore/nn/wrap/cell_wrapper.html#TrainOneStepCell 中construct里的写法。