GPT-4 背后的计算大脑是什么?
今天我们来聊聊 GPU。
在过去的十多年中,GPU 的价格波动反映了投资热点。从游戏中的图形计算,到矿机,再到现在的 AI 训练,不变的是老黄家的生意一直很好。显卡也从打游戏的消耗品变成了理财产品。
和 CPU 提供的复杂通用计算相比,GPU 可以堆叠很多个逻辑计算单元(ALU),更适合进行大量而重复性的运算,比如挖矿当中用到的哈希值计算。
大模型的训练中要用到大量的向量和矩阵运算,GPU 提供了更高的投入产出比。
GPT-4 训练就是在数以万计的 Nvidia A100 GPU 上运行,每个 GPU 价值 1 万美元。
下图对 CPU、GPU 和 TPU 进行了比较。
CPU - 中央处理器 - 标量乘法
CPU 设计按照冯·诺依曼体系结构。整个操作系统都运行在 CPU 上,提供了更大的灵活性。CPU 用于快速执行顺序任务,通常有多个 ALU。
GPU - 图形处理器 - 向量乘法
GPU 最初是为图形计算而设计的。2006 年,随着 Nvidia 开发出 CUDA 和 Tesla 架构,GPU 开始用于通用计算。GPU 有数千个内核,擅长执行并行任务。
TPU - 张量处理单元 - 矩阵乘法
TPU 是谷歌设计的机器学习加速器,可以理解为专门为这类任务设计和优化的专有硬件。我们可以使用 TensorFlow 等机器学习框架在 TPU 云上运行机器学习工作任务。TPU 专为特定的深度学习任务而设计,因此灵活性较差,但性能比 CPU 和 GPU 好得多。
【关注公众号ByteByteGo获取高清图】