EMA:指数移动平均,用于优化权重更新
参考自:https://blog.csdn.net/Newt_Scamander/article/details/122268929
AMP:自动混合精度,用于加快模型训练,其思想在于使得模型处理数据的时候,自动控制数据在torch.FloatTensor和torch.HalfTensor之间变换。
涉及到AMP有两个函数需要注意:
1:torch.cuda.amp.autocast:自动将数据从FP32转化为FP16,一般只用于前向传播。
2:torch.cuda.amp.GradScaler
参考自:https://blog.csdn.net/ytusdc/article/details/122152244