NVIDIA GH200 超级芯片：重塑超算性能与AI基准的革新之作

赋创EMPOWER X

于 2024-09-09 17:01:23 发布

阅读量950

点赞数 16

文章标签：人工智能深度学习图像处理服务器架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50197960/article/details/142063052

版权

Nvidia 正在将其 GH200 芯片应用于欧洲超级计算机，研究人员正在着手研究这些系统并发布带有性能基准的研究论文。
在这里插入图片描述
在第一篇论文《理解紧密耦合异构系统中的数据移动：以 Grace Hopper 超级芯片为例》中，研究人员对 GH200 的各种应用进行了基准测试，该芯片集成了 CPU 和 GPU。这些数字突显了该芯片的惊人速度以及 AI 和科学应用程序性能如何从本地化的 HBM3 和 DDR5 内存中受益。

Alps 系统的一项基准测试（仍在升级）用于测量 GH200 运行 AI 应用程序时的性能。

另一篇论文《使用百亿亿次气候模拟器提高地球系统模型输出并节省 PB 级存储空间》测量了 Frontier 中 GH200 到 AMD MI250X 的大型集群、Leonardo 中的 Nvidia A100 以及 Summit 中的 Nvidia V100 的性能。这些系统曾位居 Top500 排行榜榜首，现在已进入前十。

GH200 将 Nvidia 专有的 72 个 ARM Neoverse V2 CPU 核心与 132 个 GPU 流处理器直接连接起来。CPU 和 GPU 通过 NVLink-C2C 互连进行通信，该互连以 900GB/秒的速度双向运行。它还具有 96GB 的 HBM3 并汇集了不同类型的 CPU 和 GPU 内存。
在这里插入图片描述

非正式 GH200 分析

研究人员获得了正在升级的阿尔卑斯超级计算机中 GH200 芯片的一个分区࿰

最低0.47元/天解锁文章

赋创EMPOWER X

博客等级

码龄5年

103
原创

1391
点赞

1387
收藏

740
粉丝

关注

私信

热门文章

最新评论

DeepSeek-R1 本地部署必备！硬件配置精准指南
赋创EMPOWER X: 您好，我们硬盘1是单纯系统盘，部署是在硬盘2，若有更高预算可以硬盘1选择NVME的硬盘，我们支持定制化服务。
DeepSeek-R1 本地部署必备！硬件配置精准指南
yuanzhengme.: 从14B模型开始，是不是硬盘1和硬盘2的类型搞反了？？？
RTX 4090深度学习性能实测奉上！模型训练可提升60~80%
愙墨: 8张4090能跑到多少功耗
深度学习服务器怎么选择？
高性能服务器: 深度学习服务器怎么选？机器学习是实现人工智能得方法，深度学习是实现机器学习得技术。机器学习在实现人工智能时需要人工辅助，而深度学习是为了让过程完全自动化。本篇来给大家分析一下深度学习服务器选择的问题，深度学习服务器怎么选？如果是用来进行短周期或者临时使用，建议租用云服务器，既方便又快捷，可按需购买，可以节约成本。与传统的服务器相比，GPU服务器主要服务于以海量数据为特征的高性能计算。 1、就GPU海量计算而言，阿里云是国内首选。阿里云的GPU云服务器是基于GPU应用的计算服务，最适合AI深度学习、视频处理、科学计算、图形可视化等应用场景。 2、如果觉得阿里云GPU价格成本高了，追求低成本，可选择c5，g5，c6系列服务器，低至0.26折，计算性能不错，还可领取代金券。 3、腾讯云的GPU服务器也值得推荐，腾讯云的GPU服务器分为渲染性和计算性两种，分别满足不同场景的使用需求;腾讯云目前所采用的GPU 虚拟化技术主要为 PCIE 硬件虚拟化(SRIOV)或直通(DirectPass-Through)。 4、华为云目前也加入大云计算竞争，从去年开始，专门推出了秒杀活动，有不少性能高的优惠机型，还都是独享型，通用型和C系列增强型是他们家热销款，计算性能也不错，也可作为GPU服务器的备选之一。但是如果你是长期使用GPU服务器，建议选择带显卡的硬件服务器，综合性能也比较好。深度学习计算配置要求一、数据存储要求做深度学习首先需要一个好的存储系统，将历史资料保存起来主要任务:历史数据存储，如:文字、图像、声音、视频、数据库等...... 二、性能要求 1、数据容量:提供足够高的存储能力 2、读写带宽:多硬盘并行读写架构提高数据读写带宽 3、接口:高带宽，同时延迟低三、CPU要求 1、数据从存储系统调入到内存的解压计算 2、GPU计算前的数据预处理 3、运行在代码中写入并读取变量执行指令，如函数调用启动在GPU上函数调用，创建小批量数据启动到GPU的数据传输 4、GPU多卡并行计算前，每个核负责一块卡的所需要的数据并行切分处理和控制 5、求解后数据保存前的压缩计算 6、上述每一类操作基本都是单核计算模式，如果要加速这些过程，唯有提升CPU 频率四、GPU要求主要任务：承担深度学习的数据建模计算、运行复杂算法五、

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。