运行最先进的文本到图像模型需要什么?游戏卡可以完成这项工作,还是选择A100?如果只有一个 CPU 怎么办?
为了阐明这些问题,我们提出了在不同 GPU 和 CPU 上稳定扩散的推理基准。这些是我们的发现:
- 许多消费级 GPU 可以做得很好,因为稳定的扩散只需要大约 5 秒和 5 GB 的 VRAM 即可运行。
- 在输出单张图像的速度方面,最强大的 Ampere GPU (A100) 仅比 3080 快 33%(或 1.85 秒)。
- 通过将批量大小推到最大,与 3080 相比,A100 可以提供 2.5 倍的推理吞吐量。
我们的基准测试使用文本提示作为输入并输出分辨率图像512x512。我们使用Huggingface 的扩散器库中的模型实现,并从速度、内存消耗、吞吐量和输出图像的质量方面分析推理性能。我们研究了硬件(GPU 模型、GPU 与 CPU)和软件(单精度与半精度、pytorch 与 onnxruntime)的不同选择如何影响推理性能。
作为参考,我们将为以下 GPU 设备提供基准测试结果:A100 80GB PCIe、RTX3090、RTXA5500、RTXA6000、RTX3080、RTX8000。
速度
下图展示了使用(任意)文字提示,使用不同硬件和精度生成单张图片时的推理速度:“a photo of an astronaut interviewing a horse on mars”。