向英伟达下战帖 -> 关于能耗和算力

英伟达:

腾讯AI (Deekseek) 整理的英伟达显卡数据如下:

芯片型号​​FP16算力 (TFLOPS)​​典型功耗 (W)​​单位算力能耗 (W/TFLOPS)​​显存带宽 (TB/s)​​架构特性​
​A100​312 400 

1.281.6 (HBM2e) Ampere架构,第三代Tensor Core
​H100​1,979 700 0.353.35 (HBM3) 

Hopper架构,支持FP8优化
​H200​1,979 700 0.354.8 (HBM3e) H100升级版,显存增至141GB
​RTX 4090​82.6 450 5.451.0 (GDDR6X) Ada Lovelace架构,消费级卡

以英伟达 H100来看,单位算力是0.35 J/TFlops,= 0.35 e-12 J/Flops 

PWM双电容模拟乘加计算电路:

用双电容模拟电路替代数字乘法器实现神经网络乘加计算 —— 一种低功耗AI芯片设计新思路-CSDN博客

统一回复:网友关于双电容架构芯片的一些疑问(还是小红书给力)-CSDN博客

    能量分为两个方面,一个是开关操作的能量,另一个是电容充放电消耗的能量。今天为了打脸英伟达,我们用pcb和分立元件来做这个电路的计算:

电容充放电消耗的能量

我们设定加权电容为 50pF,预充电电压为 0.2V,放电终止检测电压设为 0.1V。所选电压值和压差都相对较大。


单个电容一次计算消耗的能量为:

(0.2 * 0.2 − 0.1 * 0.1) × (50 e−12) / 2 = 7.5 e−13 J

考虑到我们使用正负电容按位分段计算(假设为4位),因此一个神经元的能耗为:

(7.5 e−13) × 2 × 16


整个网络的一次计算能耗(假设神经网络有250个神经元,每个神经元连接250个输入):

(7.5 e−13) × 2 × 16 × 250 = 0.6 e−8 J


算力计算(按英伟达规则:乘法与加法各算一次算力):

250 × 250 × 2 = 125,000 FLOPS


单位算力能耗:

0.6 e−8 / 125,000 = 4.8 e−14 J/FLOP


与英伟达 H100 的单位算力能耗对比:

H100 芯片单位算力能耗约为:0.35 × 10⁻¹² J/FLOP

对比结果:

0.35 e-12 / 4.8 e−14 = 7.29 倍


结论:

英伟达 4nm 工艺的 GPU 能耗是 PCB 分立元件搭建的模拟计算电路的 7倍以上


你不是在逗我吧 :)
你是不是还忘了什么?

没错!
我们还没有考虑 250个输入 PWM 开关操作 以及 电阻网络设置开关 所消耗的能量 —— 这部分留作你们的作业啦。不然你们找不到攻击点~

回应热心网友 @memcad:

我们也可以做 8位计算 的,谁怕谁!

但有的人可能注意到了,我们的电路实现的是近似于定点数的计算,但又优于传统定点数,甚至可以说是整体浮点化比例运算。它的值是比例化的


补充一句:

别小看分立元件

如果能像 LED 灯带那样批量生产,柔性电路板像席子一样卷起来,那这个神经网络的规模也可以做得非常庞大。

如果结合成熟工艺做成细薄的芯片,并用于大面积柔性卷绕电路板上,那么所谓的“先进工艺”在成本上未必还有优势。


英伟达支持者们:

如果你们挑不出错处来,
很快全世界都会刊登这样一条新闻:

英伟达公司近日被中国无名氏贴脸开大!!

  


注:我方电路未计入结果合并加法计算、PWM开关、及电阻网络电阻切换开关能耗。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值