NVIDIA A100 GPU - 推理基准测试分析

运行最先进的文本到图像模型需要什么?游戏卡可以完成这项工作,还是选择A100?如果只有一个 CPU 怎么办?

为了阐明这些问题,我们提出了在不同 GPU 和 CPU 上稳定扩散的推理基准。这些是我们的发现:

  • 许多消费级 GPU 可以做得很好,因为稳定的扩散只需要大约 5 秒和 5 GB 的 VRAM 即可运行。
  • 在输出单张图像的速度方面,最强大的 Ampere GPU (A100) 仅比 3080 快 33%(或 1.85 秒)。
  • 通过将批量大小推到最大,与 3080 相比,A100 可以提供 2.5 倍的推理吞吐量。

我们的基准测试使用文本提示作为输入并输出分辨率图像512x512。我们使用Huggingface 的扩散器库中的模型实现,并从速度、内存消耗、吞吐量和输出图像的质量方面分析推理性能。我们研究了硬件(GPU 模型、GPU 与 CPU)和软件(单精度与半精度、pytorch 与 onnxruntime)的不同选择如何影响推理性能。

作为参考,我们将为以下 GPU 设备提供基准测试结果:A100 80GB PCIe、RTX3090、RTXA5500、RTXA6000、RTX3080、RTX8000。

速度

下图展示了使用(任意)文字提示,使用不同硬件和精度生成单张图片时的推理速度:“a photo of an astronaut interviewing a horse on mars”。
稳定的扩散 Text2Image 速度(以秒为单位)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值