Groq​大模型推理芯片每秒500tokens超越GPU?

     一家名叫Groq的公司今天在AI圈内刷屏,杀招就一个:快。

     相比于“一个个蹦出字符,半天才能回答完毕”的GPT,Groq“一秒一屏”,速度惊人。背后的核心技术是LPU,但成本比GPU高太多,还不能成为英伟达的竞争对手。

Groq芯片的爆发

    这一次他们之所以能突然爆发,主要是因为Groq云服务的上线,让大家真的能亲身感受一下不卡顿的AI用起来有多爽

    有从事人工智能开发的用户称赞,Groq是追求低延迟产品的“游戏规则改变者”,低延迟指的是从处理请求到获得响应所需的时间。另一位用户则表示,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”,并认为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品

Groq芯片的核心技术LPU

     Groq的处理器是LPU(Language Processing Unit,语言处理单元),可以为诸如AI语言应用程序(LLM)等提供最快的推理速度。取胜的核心技术是Groq首创的LPU技术。

    LPU旨在克服LLM的两个瓶颈:计算密度和内存带宽。

    对于LLM来说,LPU的计算能力要远大于GPU和CPU,它减少了计算每个单词所需要的时间,从而可以更快地生成文本。

     根据其模型的首次公开基准测试结果,Groq云服务搭载的Llama2或Mistreal模型在计算和响应速度上远超ChatGPT。这一卓越性能的背后,是Groq团队为大语言模型(LLM)量身定制的专用芯片(ASIC),它使得Groq每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。

    根据推特上与Groq关系密切的投资人k_zeroS分享,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。

    Groq的芯片采用14nm制程,搭载了230MB大SRAM以保证内存带宽,片上内存带宽高达80TB/s。在算力方面,该芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。基于自研的TSP架构——时序指令集计算机(Temporal Instruction Set Computer)架构,Groq利用机器学习工作负载的并行性对推理进行加速,并支持通过PyTorch、TensorFlow等标准机器学习框架进行推理。,

    Groq的LPU不需要像英伟达的GPU那样的快速数据传输,因为LPU上并没有搭载HBM。它们使用SRAM,比GPU快20倍。 LPU使用时序指令集计算机架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据

    而此前英伟达的H100和H200芯片都是借助HBM的技术才实现了速度和能效的改善。

    SRAM是静态随机存取存储器(Static Random-Access Memory,SRAM),属于随机存取存储器的一种,只要保持通电,里面的数据就可以一直保存。

    鉴于AI的推理计算相较于模型训练需要的数据量远小,Groq的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于Nvidia的GPU。

    但是成本哪?

Grop芯片的成本

    在Groq刚刚刷屏的时候,AI行业都沉浸在它闪电速度的震撼之中。然而震撼过后,很多行业大佬一算账,发现这个快的代价可能有点高。

    贾扬清在推特上算了一笔账:

1. 每一张 Groq 卡的内存是230MB,LLaMA 70b 模型,假设采用 int8 量化,完全不计 inference 的内存消耗,那么需要的卡的下限值是 305 张卡。实际需要的更多,有报导是572张,因此我们按照 572 张来计算。

2. 每张 Groq 卡的价格是 2 万美元,因此,采购 572 张卡的价格是 1144 万美元。当然,因为销售策略,可能每张卡的价格会打折,姑且按照目录价来计算。

3. 572 张卡,每张的功耗平均是 185w,不考虑外设,总功耗是 105.8kw。(注意,实际会更高)

4. 现在数据中心平均每千瓦每月的价格在 200美元左右,也就是说,每年的电费是105.8 * 200 * 12 = 25.4 万美元。(注意,实际会更高)

5. 基本上,采用 4 卡 H100 可以实现 Groq 一半的性能,也就是说,一台 8 卡的 H100 和上面的能力相当。 8 卡 H100 的标称最大功率是10kw (实际大概在 8-9 kw),因此,一年的电费是 2.4 万美元或更低一些。

6. 今天 8 卡 H100 的采购成本大概在30万美元左右。

7. 因此,如果运行三年的话,Groq 的硬件采购成本是 1144 万美元,运营成本是 76.2 万美元或更高。8 卡 H100 的硬件采购成本是 30 万美元,运营成本是 7.2 万美元或略低。

    从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

     这还没有算机架相关费用。

总结

    Groq的架构建立在小内存,大算力上,因此有限的被处理的内容对应着极高的算力,导致其速度非常快。

     现在把句话反过来,Groq极高的速度是建立在很有限的单卡吞吐能力上的。要保证和 H100同样吞吐量,你就需要更多的卡。

参考资料

[01] 芯片专家详解刷屏的Groq芯片 - 华尔街见闻

[02] https://www.techweb.com.cn/news/2024-02-21/2941135.shtml

[03] https://www.163.com/dy/article/IRECBUVM05566VQ3.html

关注博主公众号,获取最新技术博文:

谢谢您的关注

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YoungerChina

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值