Yolov3加入混合精度加速训练后的map对比

使用的是pytorch内置的amp模块进行混合精度训练,通过使用16位的半精度浮点数代替32位浮点数,能够使得训练时占用显存更小,因此可以使用更大的batch size以适应一些对大批尺寸有需求的结构(如BN);由于float6的计算吞吐量可以达到float32的2-8倍,且半精度计算已经比较成熟,可以使得计算速度加快。

import torch
scaler = torch.cuda.amp.GradScaler()

model.train()

imgs = imgs.to(device, non_blocking=True)
targets = targets.to(device)

with torch.cuda.amp.autocast():  # 混合精度加速训练
    outputs = model(imgs)
    loss, loss_components = compute_loss(outputs, targets, model)

    optimizer.zero_grad()
    scaler.scale(loss).backward()
    scaler.step(optimizer)
    scaler.update()

 以上是截取的部分代码,供参考。经过测试,训练时的显存占用从之前的20000MB降至8000MB。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值