Blackwell B200 GPU。 图片来源: Nvidia
英伟达必备的H100 AI芯片使其成为一家价值数万亿美元的公司,其价值可能比Alphabet和亚马逊还要高,竞争对手一直在努力追赶。但也许英伟达即将扩大其领先优势——凭借新的 Blackwell B200 GPU 和 GB200“超级芯片”。
英伟达首席执行官黄仁勋(Jensen Huang)在左边举起他的新GPU,右边是GTC直播中的H100。 图片来源: Nvidia
英伟达表示,新的 B200 GPU 从其 2080 亿个晶体管中提供高达 20 petaflops 的 FP4 马力。此外,它表示,将其中两个GPU与单个Grace CPU相结合的GB200可以为LLM推理工作负载提供30倍的性能,同时还可能大大提高效率。英伟达表示,与H100相比,它“将成本和能耗降低了25倍”。
Nvidia 声称,训练一个 1.8 万亿参数模型以前需要 8,000 个 Hopper GPU 和 15 兆瓦的功率。今天,英伟达的首席执行官表示,2000个Blackwell GPU可以做到这一点,而功耗仅为4兆瓦。
在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,Nvidia 表示 GB200 的性能是 H100 的 7 倍,而 Nvidia 表示它提供的训练速度是 H100 的四倍。
这是一台 GB200 的样子。两个GPU,一个CPU,一个板。 图片来源: Nvidia
英伟达告诉记者,其中一项关键改进是第二代 Transformer 引擎,它通过为每个神经元使用四个位而不是八个位(因此,我之前提到的 FP4 的 20 petaflops)将计算、带宽和模型大小翻了一番。第二个关键区别只有在您连接大量这些 GPU 时才会出现:下一代 NVLink 交换机,允许 576 个 GPU 相互通信,双向带宽为每秒 1.8 TB。
英伟达表示,这需要英伟达构建一个全新的网络交换芯片,该芯片具有500亿个晶体管和一些自己的板载计算能力:3.6 teraflops 的FP8。
英伟达表示,它正在与Blackwell一起添加FP4和FP6。 图片来源: Nvidia
英伟达表示,以前,一个只有 16 个 GPU 的集群将花费 60% 的时间相互通信,而只有 40% 的时间用于实际计算。
当然,英伟达指望公司购买大量这些GPU,并将它们封装在更大的设计中,例如GB200 NVL72,它将36个CPU和72个GPU插入一个液冷机架中,总共可实现720 petaflops的AI训练性能或1,440 petaflops(又名1.4 exaflops)的推理。它内部有近两英里的电缆,有 5,000 根单独的电缆。
GB200 NVL72. 图片来源: Nvidia
机架中的每个托盘包含两个 GB200 芯片或两个 NVLink 交换机,每个机架有 18 个前者,后者有 9 个。英伟达表示,总的来说,其中一个机架可以支持27万亿参数模型。有传言称 GPT-4 的参数约为 1.7 万亿。
该公司表示,亚马逊、谷歌、Microsoft和甲骨文都已经计划在其云服务产品中提供NVL72机架,但目前尚不清楚他们购买了多少。
当然,英伟达也很乐意为公司提供其余的解决方案。这是适用于 DGX GB200 的 DGX Superpod,它将八个系统合二为一,总共有 288 个 CPU、576 个 GPU、240TB 内存和 11.5 exaflops 的 FP4 计算。
图片来源: Nvidia
英伟达表示,其系统可以扩展到数以万计的GB200超级芯片,通过其新的Quantum-X800 InfiniBand(最多144个连接)或Spectrum-X800以太网(最多64个连接)连接800Gbps网络。
我们预计今天不会听到任何关于新游戏 GPU 的消息,因为这个消息来自 Nvidia 的 GPU 技术会议,该会议通常几乎完全专注于 GPU 计算和 AI,而不是游戏。但 Blackwell GPU 架构也可能为未来的 RTX 50 系列台式机显卡提供动力。
来源:https://www.theverge.com/2024/3/18/24105157/nvidia-blackwell-gpu-b200-ai