苏妈杀疯了:移动端最强NPU算力达50TOPS,硬刚英伟达

来源:机器之心

一年一度的 Computex 科技大会成为了 GPU 厂商们秀肌肉的舞台,其中当属英伟达和 AMD 最为亮眼。英伟达现场拿出了量产版 Blackwell 芯片,还公布了未来三年的产品路线,包括下一代 Rubin AI 平台。

AMD 当然也不甘示弱,CEO 苏姿丰亮出了旗下的 CPU、GPU 产品及路线图,包括全新 Zen 5 架构的桌面端 Ryzen 9000系列 CPU、AI PC 芯片、数据中心芯片和 GPU。

383a351c61d576f00fd4f84fdf91e313.png苏姿丰

全新 Zen 5 架构

锐龙 9000 桌面系列芯片首次亮相

苏姿丰在演讲中着重介绍了基于 Zen 5 架构的全新桌面端 Ryzen CPU,它们经过优化可以通过神经网络处理器来加速 AI 工作负载。

下图为下一代高性能 CPU 核心 Zen 5 的各项规格,它不仅是当前 Ryzen 9000 系列处理器的核心,也将成为今年下半年推出的 Turin Epyc 霄龙服务器 CPU 的核心。

d823572b96a5699e429a310d35b9f243.png

苏姿丰表示,Zen 5 是 AMD 迄今设计的性能和能效均最高的核心,而且它是从头开始设计的。其中,该核心拥有一个新的并行双管道前端,旨在提高分支预测准确性并减少延迟,并能够在每个时钟周期提供更高的性能。

此外,Zen 5 具有更宽的 CPU 引擎指令窗口,可以并行运行更多指令,以实现领先的计算吞吐量和效率。与 Zen 4 相比,Zen 5 的指令带宽增加了一倍,缓存和浮点单元之间的数据带宽增加了一倍,AI 性能增加了一倍,同时具有完整的 AVX 512 吞吐量。

苏姿丰现场首次展示了采用 Zen 5 架构的 Ryzen 9 9950X。

4eedfcf962d15bd1f1e50f544f6a44bf.png

Ryzen 9 9950X 拥有 16 个核心和 32 个线程,加速后运行速度可以高达 5.67 GHz。Zen 5 的平均每个核心指令比之前的 Ryzen 芯片以及「Genoa」Epyc 9000 系列处理器中使用的 Zen 4 核心多 16%。此外,TDP 为 170W,L2+L3 缓存为 80MB。

744cfd5745447d4809fa8ac3d1526880.png

下图为 Ryzen 9000 全系列 CPU,包括了 Ryzen 9 9950X、Ryzen 9 9900X、Ryzen 7 9700X、Ryzen 5 9600X 以及规格比较。这些产品预计今年 7 月上市

6eca2b20926efaee2a098c3b2faa88ce.png

AMD 给出的内部游戏测试数据显示,Ryzen 9 9950X 对游戏性能的提升幅度不一。比如在《无主之地 3》中的表现仅比英特尔 Core  i9-14900K 高出 4%,在《杀手 3》中高出 6%,在《赛博朋克 2077》中高出 13%。此外,Ryzen 9 9950X 在《F1 2023》中的表现较英特尔提升了 16%,在《DOTA 2》中提升了 17%,在《地平线零之曙光》中提升了 23%。

e72e5faf874e289f99b661660853ad22.png

50TOPS

AMD 最强移动端 NPU 算力

苏姿丰展示了下一代 AI PC 芯片 —— 锐龙 AI 300 系列 APU(第三代)。

e17913b97309ae768a6b6f1c24b654a4.png

下图为锐龙 AI 300系列芯片实拍。

645e351f39946b5585caba9c7a77e6ad.png

锐龙 AI 300 系列芯片旨在提供下一代 AI PC 体验,因而要求 NPU、CPU 和 GPU 均要达到最佳。

32d4bfc556918af54c2756364e64e9d6.png

锐龙 AI 300 系列首发提供了两款型号,锐龙 AI 9 HX 370 和锐龙 AI 9 365。下图为锐龙 AI 9 HX 370 的参数规格。

3f945ced672744021c18dc189b932600.png

锐龙 AI 300 系列采用了 XDNA AI NPU,号称移动端最强 NPU,算力达 50TOPS,不仅达到了微软对新一代 AI PC「NPU 算力 40TOPS 以上」的标准,还超过了高通骁龙 X Elite 的 45TOPS、英特尔 Lunar Lake 的 40-45TOPS。

9b4fed40356437d0adb107c615c788dc.png

AMD 表示,搭载锐龙 AI 300 系列的笔记本将于今年 7 月起陆续上市。

最高 192 核心 384 线程

第五代 EPYC 霄龙问鼎数据中心芯片

苏姿丰现场也展示了第五代「Turin」EPYC 霄龙芯片,它号称全球最强数据中心 CPU。

7f2eaef9e5e620e0734234ef8a4e19e9.png

下图为第五代 AMD 霄龙 Turin 芯片的参数规格。目前没有透露太多细节,从基础信息参数来看,Turin 具有 192 个 Zen 5 核心和 384 个线程,采用与 Genoa Epyc 9004s 相同的 SP5 插槽适配。

0a186af7205447936035755a5d66c8f8.png

Turin 芯片可能会被命名为 「Epyc 9005s」。可以期待的是, 在 IPC 方面,它与 Ryzen Zen 5 芯片相近。相较于 Zen 4 核心,IPC 改进可能在 15% 到 20% 之间。苏姿丰展示了 Turin 芯片的一些早期基准测试数据。

如下图所示,图上为具有 128 个核心的 Turin 芯片在 NAMD 分子动力学应用程序中运行 STMV 基准测试的性能。Turin 芯片模拟了 2000 万个原子,并计算了计算引擎在 24 小时内可以处理多少纳秒的分子相互作用。可以看到,128 核心的 Turin 芯片是 64 核心英特尔「Emerald Rapids」Xeon SP-8592 + 工作量的约 3.1 倍。

图下为基于 Meta Llama 2 7B 模型的 AI 吞吐量基准测试,该模型以 INT4 数据格式处理,推理 token 生成设置为 50 毫秒。128 核心的 Turin 芯片是英特尔竞品 CPU 性能的 2.5 倍到 5.4 倍之间,具体数值取决于工作负载。

bff22a44000a40ccc8a473c9fd4d541b.png

对标英伟达

AMD 的 Instinct GPU 也一年一更

讲完了 CPU,接下来的重头戏就是 Instinct GPU 了,它将是 AMD 未来产品战略的一个重要抓手。

苏姿丰表示,「Antares」MI300 系列是 AMD 历史上增长最快的产品,在 HPC 和 AI 工作负载方面的可用性看起来有点像英伟达 GPU,不过其所提供的性能优势以及 HBM 内存容量、带宽优势较为突出。

比如在推理工作负载方面,通过对 Llama 3(具有 700 亿参数)进行推理检验性能的结果来看,一台配备 8 个 MI300X GPU 的服务器性能约为一台配备 8 个 H100 GPU 加速器的英伟达 HGX 性能的 1.3 倍。而在 Mistral 7B 模型上,单个 MI300X 的性能则是英伟达 H100 GPU 的约 1.2 倍。

随后,苏姿丰公布了 2024-2026 年的 Instinct GPU 路线图,今年推出 MI325X,2025 年推出 MI350,2026 年推出 MI400

1b8cf122d67d2e2cdb186ddc04e015b9.png

MI325X 将具有更大的算力规模,并转向 HBM3E 内存。下图为 MI325X 的基础性能规格,内存增加了 2 倍,最高可达 288GB;带宽增加了 30%,达到了 6TB / 秒。

fdfdf6f25e3e4443bad9ea06562423da.png

下图为 MI325X 的数据传输速度与英伟达 H200(141GB 内存)比较的结果。值得一提的是,1 万亿参数的模型将适配一台配有八个 MI325X 的系统主板,每个 GPU 都有 288GB 的 HBM3E 内存容量。

474892bada21b10ddebc4381b4882603.png

据悉,MI325X 最快将在今年第四季度推出。不过到那时,英伟达将在该领域中凭借 B100 占据一席之地,并将大规模量产 H200。因此,AMD 感受到了危机,并且迅速行动。

这也是为什么 AMD 提前推出 MI350X 的原因,它采用了全新 CDNA 4 架构、台积电 3 纳米工艺、288 GB 的 HBM3E 内存以及 FP6、FP4 数据类型。MI350X 也将成为 AMD Instinct MI350 系列的第一款产品。

64f2c2edac43b71a5aca52a2b7abd98e.png

在推理性能方面,CDNA 4 架构是 CDNA 3 的 35 倍。

99e0cd065246aa4a98e1a7096f5aa6fe.png

MI350 的内存容量将是英伟达 2025 年推出的 B200(Blackwell Ultra 架构)芯片的 1.5 倍,AI 计算能力是后者的 1.2 倍。

42c265423d34b25b8e8fcd0e4c64ef22.png

AMD 这波就是奔着英伟达去的,到时候有好戏看了。

原文链接:

https://www.nextplatform.com/2024/06/03/amd-previews-turin-epyc-cpus-expands-instinct-gpu-roadmap/

参考链接:

https://www.anandtech.com/show/21415/amd-unveils-ryzen-9000-cpus-for-desktop-zen-5-takes-center-stage-at-computex-2024

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

65aa50bd6dd35e828d01cc8b7f855f85.jpeg

👆 长按识别,邀请您进群!

df7302aa2d009e307327f3cde01d928c.gif

内容概要:《2024年中国城市低空经济发展指数报告》由36氪研究院发布,指出低空经济作为新质生产力的代表,已成为中国经济新的增长点。报告从发展环境、资金投入、创新能力、基础支撑和发展成效五个维度构建了综合指数评价体系,评估了全国重点城市的低空经济发展状况。北京和深圳在总指数中名列前茅,分别以91.26和84.53的得分领先,展现出强大的资金投入、创新能力和基础支撑。低空经济主要涉及无人机、eVTOL(电动垂直起降飞行器)和直升机等产品,广泛应用于农业、物流、交通、应急救援等领域。政策支持、市场需求和技术进步共同推动了低空经济的快速发展,预计到2026年市场规模将突破万亿元。 适用人群:对低空经济发展感兴趣的政策制定者、投资者、企业和研究人员。 使用场景及目标:①了解低空经济的定义、分类和发展驱动力;②掌握低空经济的主要应用场景和市场规模预测;③评估各城市在低空经济发展中的表现和潜力;④为政策制定、投资决策和企业发展提供参考依据。 其他说明:报告强调了政策监管、产业生态建设和区域融合错位的重要性,提出了加强法律法规建设、人才储备和基础设施建设等建议。低空经济正加速向网络化、智能化、规模化和集聚化方向发展,各地应找准自身比较优势,实现差异化发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值