调用前需要清除已存在的梯度,否则梯度会累加到已存在的梯度 这个真的非常重要,在训练模型时,以为是梯度没有传递,但实际上是因为backward之前都需要清零梯度。要是想看到梯度,应该在.backward之后看本次的。