NVIDIA A100 GPU - 推理基准测试分析

赋创小助手

已于 2022-11-16 16:46:16 修改

阅读量2.8k

点赞数

文章标签：深度学习人工智能计算机视觉服务器

于 2022-10-14 11:10:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50197960/article/details/127316131

版权

运行最先进的文本到图像模型需要什么？游戏卡可以完成这项工作，还是选择A100？如果只有一个 CPU 怎么办？

为了阐明这些问题，我们提出了在不同 GPU 和 CPU 上稳定扩散的推理基准。这些是我们的发现：

许多消费级 GPU 可以做得很好，因为稳定的扩散只需要大约 5 秒和 5 GB 的 VRAM 即可运行。
在输出单张图像的速度方面，最强大的 Ampere GPU (A100) 仅比 3080 快 33%（或 1.85 秒）。
通过将批量大小推到最大，与 3080 相比，A100 可以提供 2.5 倍的推理吞吐量。

我们的基准测试使用文本提示作为输入并输出分辨率图像512x512。我们使用Huggingface 的扩散器库中的模型实现，并从速度、内存消耗、吞吐量和输出图像的质量方面分析推理性能。我们研究了硬件（GPU 模型、GPU 与 CPU）和软件（单精度与半精度、pytorch 与 onnxruntime）的不同选择如何影响推理性能。

作为参考，我们将为以下 GPU 设备提供基准测试结果：A100 80GB PCIe、RTX3090、RTXA5500、RTXA6000、RTX3080、RTX8000。

速度

下图展示了使用（任意）文字提示，使用不同硬件和精度生成单张图片时的推理速度：“a photo of an astronaut interviewing a horse on mars”。
稳定的扩散 Text2Image 速度（以秒为单位）

最低0.47元/天解锁文章

赋创小助手

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NVIDIA A100 GPU - 推理基准测试分析

运行最先进的文本到图像模型需要什么？游戏卡可以完成这项工作，还是选择A100？如果只有一个 CPU 怎么办？为了阐明这些问题，我们提出了在不同 GPU 和 CPU 上稳定扩散的推理基准。我们的基准测试使用文本提示作为输入并输出分辨率图像512x512。我们使用Huggingface 的扩散器库中的模型实现，并从速度、内存消耗、吞吐量和输出图像的质量方面分析推理性能。
复制链接

扫一扫

赋创小助手 CSDN认证博客专家 CSDN认证企业博客

码龄4年

深圳市昊源诺信科技有限公司

18: 原创

113万+: 周排名

8万+: 总排名

2万+: 访问

: 等级

227: 积分

28: 粉丝

33: 获赞

2: 评论

74: 收藏

私信

关注

热门文章

最新评论

RTX 4090深度学习性能实测奉上！模型训练可提升60~80%
愙墨: 8张4090能跑到多少功耗
深度学习服务器怎么选择？
高性能服务器: 深度学习服务器怎么选？机器学习是实现人工智能得方法，深度学习是实现机器学习得技术。机器学习在实现人工智能时需要人工辅助，而深度学习是为了让过程完全自动化。本篇来给大家分析一下深度学习服务器选择的问题，深度学习服务器怎么选？如果是用来进行短周期或者临时使用，建议租用云服务器，既方便又快捷，可按需购买，可以节约成本。与传统的服务器相比，GPU服务器主要服务于以海量数据为特征的高性能计算。 1、就GPU海量计算而言，阿里云是国内首选。阿里云的GPU云服务器是基于GPU应用的计算服务，最适合AI深度学习、视频处理、科学计算、图形可视化等应用场景。 2、如果觉得阿里云GPU价格成本高了，追求低成本，可选择c5，g5，c6系列服务器，低至0.26折，计算性能不错，还可领取代金券。 3、腾讯云的GPU服务器也值得推荐，腾讯云的GPU服务器分为渲染性和计算性两种，分别满足不同场景的使用需求;腾讯云目前所采用的GPU 虚拟化技术主要为 PCIE 硬件虚拟化(SRIOV)或直通(DirectPass-Through)。 4、华为云目前也加入大云计算竞争，从去年开始，专门推出了秒杀活动，有不少性能高的优惠机型，还都是独享型，通用型和C系列增强型是他们家热销款，计算性能也不错，也可作为GPU服务器的备选之一。但是如果你是长期使用GPU服务器，建议选择带显卡的硬件服务器，综合性能也比较好。深度学习计算配置要求一、数据存储要求做深度学习首先需要一个好的存储系统，将历史资料保存起来主要任务:历史数据存储，如:文字、图像、声音、视频、数据库等...... 二、性能要求 1、数据容量:提供足够高的存储能力 2、读写带宽:多硬盘并行读写架构提高数据读写带宽 3、接口:高带宽，同时延迟低三、CPU要求 1、数据从存储系统调入到内存的解压计算 2、GPU计算前的数据预处理 3、运行在代码中写入并读取变量执行指令，如函数调用启动在GPU上函数调用，创建小批量数据启动到GPU的数据传输 4、GPU多卡并行计算前，每个核负责一块卡的所需要的数据并行切分处理和控制 5、求解后数据保存前的压缩计算 6、上述每一类操作基本都是单核计算模式，如果要加速这些过程，唯有提升CPU 频率四、GPU要求主要任务：承担深度学习的数据建模计算、运行复杂算法五、
如何监控和改进用于深度学习的 GPU 使用率？
Mr.zwX: gpustat -i 可以实时更新彩色信息

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。