Groq大模型推理芯片每秒500tokens超越GPU?

YoungerChina

已于 2025-03-17 21:26:09 修改

阅读量2.1k

点赞数 43

分类专栏：人工智能文章标签：人工智能 Grop芯片 LPU芯片

于 2024-02-23 00:30:00 首次发布

本文链接：https://blog.csdn.net/younger_china/article/details/136235166

版权

人工智能专栏收录该内容

24 篇文章

订阅专栏

一家名叫Groq的公司今天在AI圈内刷屏，杀招就一个：快。

相比于“一个个蹦出字符，半天才能回答完毕”的GPT，Groq“一秒一屏”，速度惊人。背后的核心技术是LPU，但成本比GPU高太多，还不能成为英伟达的竞争对手。

Groq芯片的爆发

这一次他们之所以能突然爆发，主要是因为Groq云服务的上线，让大家真的能亲身感受一下不卡顿的AI用起来有多爽。

有从事人工智能开发的用户称赞，Groq是追求低延迟产品的“游戏规则改变者”，低延迟指的是从处理请求到获得响应所需的时间。另一位用户则表示，Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”，并认为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品。

Groq芯片的核心技术LPU

Groq的处理器是LPU（Language Processing Unit，语言处理单元），可以为诸如AI语言应用程序（LLM）等提供最快的推理速度。取胜的核心技术是Groq首创的LPU技术。

LPU旨在克服LLM的两个瓶颈：计算密度和内存带宽。

对于LLM来说，LPU的计算能力要远大于GPU和CPU，它减少了计算每个单词所需要的时间，从而可以更快地生成文本。

根据其模型的首次公开基准测试结果，Groq云服务搭载的Llama2或Mistreal模型在计算和响应速度上远超ChatGPT。这一卓越性能的背后，是Groq团队为大语言模型（LLM）量身定制的专用芯片（ASIC），它使得Groq每秒可以生成高达500个 token。相比之下，目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。

根据推特上与Groq关系密切的投资人k_zeroS分享，LPU的工作原理与GPU截然不同。它采用了时序指令集计算机（Temporal Instruction Set Computer）架构，这意味着它无需像使用高带宽存储器（HBM）的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题，还能有效降低成本。

Groq的芯片采用14nm制程，搭载了230MB大SRAM以保证内存带宽，片上内存带宽高达80TB/s。在算力方面，该芯片的整型（8位）运算速度为750TOPs，浮点(16位)运算速度为188TFLOPs。基于自研的TSP架构——时序指令集计算机（Temporal Instruction Set Computer）架构，Groq利用机器学习工作负载的并行性对推理进行加速，并支持通过PyTorch、TensorFlow等标准机器学习框架进行推理。，

Groq的LPU不需要像英伟达的GPU那样的快速数据传输，因为LPU上并没有搭载HBM。它们使用SRAM，比GPU快20倍。 LPU使用时序指令集计算机架构，这意味着它无需像使用高带宽存储器（HBM）的GPU那样频繁地从内存中加载数据

而此前英伟达的H100和H200芯片都是借助HBM的技术才实现了速度和能效的改善。

SRAM是静态随机存取存储器（Static Random-Access Memory，SRAM），属于随机存取存储器的一种，只要保持通电，里面的数据就可以一直保存。

鉴于AI的推理计算相较于模型训练需要的数据量远小，Groq的LPU因此更节能。在执行推理任务时，它从外部内存读取的数据更少，消耗的电量也低于Nvidia的GPU。

但是成本哪？