NVIDIA CEO黄仁勋先生的GTC 2022主题演讲视频
最近国内的GPU/NPU新闻比较多,每家公司都在对标NVIDIA的某个型号,看多了这类信息,让人不免产生即将赶上甚至于超越的幻觉。所以想通过GTC2022的演讲,和大家分享一下NVIDIA拥有的“全栈技术能力”。
计算硬件的超级进化
-
新一代GPU架构Hopper架构,在过去的数年里NVIDIA其他架构依次有Pascal、Volta、Ampere。也可以看出,每次架构的迭代周期一般是2年左右,实际上x86,arm这种CPU的架构迭代速度也大概是2年。计算硬件架构的升级迭代在某些方面带来了成倍的性能提升,例如:Hopper DPX指令集在Dynamic Programing方面带来了40X的速度提升;NVIDIA在Hopper架构中引入新一代流式多处理器的FP8张量核心(Tensor Core),用来加速AI训练和推理;Hopper Transformer引擎能更好实现动态混合精度的处理(Dynamic Mixed-Precision Processing);Hopper中引入了新的线程块集群机制,可实现跨单元进行协同计算。H100中的线程块集群可在同一GPC内的大量并发运行,对较大的模型具有更好的加速能力。
-
此时老黄掏出了采用Hopper架构的H100,号称有史以来最大的代际飞跃,性能碾压老前辈A100!集成了800亿个晶体管(没概念吗?苹果M1 MAX 570亿个晶体管)。note: 这可不是给游戏玩家用的,这是给高性能云计算用的。
-
Grace-Hopper单一超级芯片组
Grace CPU(左一)是NVIDIA去年发布的,合共144个Arm v9架构(Neoverse N2)CPU内核,缓存容量为396MB。Grace-Hopper将Grace CPU和Hopper H100通过NVLink直接进行芯片互连,速度达到900GB/s(注:Apple的M1 Ultra 是将两颗M1 Max互连)。
-
为了展示NVLink的超级性能,黄教主给出了如下各种情况。国内也经常说chiplet超级晶粒封装,然而芯片之间的高速互联技术并不是“简单的胶水”!
-
DGX H100是一台借助NVLink连接,由八块H100组成的一个巨型GPU。
DGX POD组成的 1 EFLOPS巨兽
-
NVIDIA EOS,这是英伟达正在构建的地球上性能最强的AI超级计算机。
软件与生态雄心
如今的NVIDIA似乎确实进化成一家由软件驱动的硬件公司了。如下摘录了几句黄教主的名言:
“具备CUDA库的NVIDIA SDK是加速计算的核心和灵魂”
“NVIDIA SDK将我们与科学领域的新挑战和业界新机遇紧密相连”
NVIDIA SDK不完全统计如下:
名称 | 简要 |
NVIDIA Aerial | NVIDIA Aerial SDK Build and Deploy GPU-Accelerated 5G Virtual Radio Access Networks (vRAN) NVIDIA Aerial™ is an application framework for building high-performance。 |
NVIDIA cuOpt | AI-Accelerated solvers for route optimization。能够优化多代理、多约束的路线规划。 |
NVIDIA cuQuantum | 一个在GPU加速系统上模拟量子电路的开发平台。 |
NVIDIA Modulus | 用于开发Physics-ML模型的AI框架。 |
NVIDIA MONAI | 与伦敦国王学院(King’s College London)合作,面向医疗研究领域的AI框架。 |
FLARE | 用于联邦学习的AI SDK。 |
MORPHEUS | NVIDIA Morpheus用于网络安全的整套能够实时检测和预防安全威胁的加速AI技术。 |
RIVA 2.0 | SDK for speech AI |
MAXINE | SDK for AI Video conferencing |
MERLIN | AI Framework for Hyperfscale recommender system。 |
Memo Megatron | AI Framwork for training large language models |
TRITON | Open-Source Hyperscale Inference Server |
... | ... |
-
NVIDIA对应用场景的理解深度以及技术布局的前瞻性
-
在这个维度上我们的认知差距有多远?
-
用户难道会使用着NVIDIA SDK,而去购买另外一家公司的的GPU卡吗?
元宇宙的基建霸主?
谁定义元宇宙世界的接口?
谁将是元宇宙基建的巨头?
结束语
对于高性能计算行业,我们有许多疑问:
-
技术层面,我们是否仍停留在谈制程、谈封装、谈面积,谈硬件对标x?
-
商业实践,我们是否仍停留在只是个买芯片/板卡/服务器的传统认知?
-
生态层面,我们是否仍停留在兼容CUDA,然后以为其他逻辑自然通?
-
竞争层面,我们是否仍停留在只是高举国产自主可控旗帜?