使用的是pytorch内置的amp模块进行混合精度训练,通过使用16位的半精度浮点数代替32位浮点数,能够使得训练时占用显存更小,因此可以使用更大的batch size以适应一些对大批尺寸有需求的结构(如BN);由于float6的计算吞吐量可以达到float32的2-8倍,且半精度计算已经比较成熟,可以使得计算速度加快。
import torch
scaler = torch.cuda.amp.GradScaler()
model.train()
imgs = imgs.to(device, non_blocking=True)
targets = targets.to(device)
with torch.cuda.amp.autocast(): # 混合精度加速训练
outputs = model(imgs)
loss, loss_components = compute_loss(outputs, targets, model)
optimizer.zero_grad()
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()
以上是截取的部分代码,供参考。经过测试,训练时的显存占用从之前的20000MB降至8000MB。