在Ascend上训练时精度和在GPU上训练时差距较大,怀疑是算子溢出问题。
请问如何将Ascend算子强制设置为float32运行?是只需要在传入相应算子前进行Ops.cast就行了吗?
还有一个问题是,算子溢出一般是只会发生在前向网络里吗,我看有一些文档提到loss里的算子是按float32处理的?
****************************************************解答*****************************************************
也可以把对应算子的输入Tensor传给Tensor(...,dtype=ms.float32),反向算子也有肯能溢出吧,不过反向一般都是跑的Fp32.
init里
self.linear = nn.Dense(in_channels, out_channels).to_float(mstype.float32)