loss.backward(),计算每个tensor的梯度
optimizer.step(),根据计算得到的梯度,更新模型的参数。
optimizer.zero_grad(),每个step计算完,梯度进行清零。否则,pytorch默认是每个tensor的梯度grad是进行累加的。但是,如果使用gradient accumulation进行梯度累加,就是再设定的累加的steps后,才进行一次参数更新和清零。
loss.backward(),计算每个tensor的梯度
optimizer.step(),根据计算得到的梯度,更新模型的参数。
optimizer.zero_grad(),每个step计算完,梯度进行清零。否则,pytorch默认是每个tensor的梯度grad是进行累加的。但是,如果使用gradient accumulation进行梯度累加,就是再设定的累加的steps后,才进行一次参数更新和清零。