英伟达:
腾讯AI (Deekseek) 整理的英伟达显卡数据如下:
芯片型号 | FP16算力 (TFLOPS) | 典型功耗 (W) | 单位算力能耗 (W/TFLOPS) | 显存带宽 (TB/s) | 架构特性 |
---|---|---|---|---|---|
A100 | 312 | 400 | 1.28 | 1.6 (HBM2e) | Ampere架构,第三代Tensor Core |
H100 | 1,979 | 700 | 0.35 | 3.35 (HBM3) | Hopper架构,支持FP8优化 |
H200 | 1,979 | 700 | 0.35 | 4.8 (HBM3e) | H100升级版,显存增至141GB |
RTX 4090 | 82.6 | 450 | 5.45 | 1.0 (GDDR6X) | Ada Lovelace架构,消费级卡 |
以英伟达 H100来看,单位算力是0.35 J/TFlops,= 0.35 e-12 J/Flops
PWM双电容模拟乘加计算电路:
用双电容模拟电路替代数字乘法器实现神经网络乘加计算 —— 一种低功耗AI芯片设计新思路-CSDN博客
统一回复:网友关于双电容架构芯片的一些疑问(还是小红书给力)-CSDN博客
能量分为两个方面,一个是开关操作的能量,另一个是电容充放电消耗的能量。今天为了打脸英伟达,我们用pcb和分立元件来做这个电路的计算:
电容充放电消耗的能量
我们设定加权电容为 50pF,预充电电压为 0.2V,放电终止检测电压设为 0.1V。所选电压值和压差都相对较大。
单个电容一次计算消耗的能量为:
(0.2 * 0.2 − 0.1 * 0.1) × (50 e−12) / 2 = 7.5 e−13 J
考虑到我们使用正负电容和按位分段计算(假设为4位),因此一个神经元的能耗为:
(7.5 e−13) × 2 × 16
整个网络的一次计算能耗(假设神经网络有250个神经元,每个神经元连接250个输入):
(7.5 e−13) × 2 × 16 × 250 = 0.6 e−8 J
算力计算(按英伟达规则:乘法与加法各算一次算力):
250 × 250 × 2 = 125,000 FLOPS
单位算力能耗:
0.6 e−8 / 125,000 = 4.8 e−14 J/FLOP
与英伟达 H100 的单位算力能耗对比:
H100 芯片单位算力能耗约为:0.35 × 10⁻¹² J/FLOP
对比结果:
0.35 e-12 / 4.8 e−14 = 7.29 倍
结论:
英伟达 4nm 工艺的 GPU 能耗是 PCB 分立元件搭建的模拟计算电路的 7倍以上!
你不是在逗我吧 :)
你是不是还忘了什么?
没错!
我们还没有考虑 250个输入 PWM 开关操作 以及 电阻网络设置开关 所消耗的能量 —— 这部分留作你们的作业啦。不然你们找不到攻击点~
回应热心网友 @memcad:
我们也可以做 8位计算 的,谁怕谁!
但有的人可能注意到了,我们的电路实现的是近似于定点数的计算,但又优于传统定点数,甚至可以说是整体浮点化比例运算。它的值是比例化的。
补充一句:
别小看分立元件!
如果能像 LED 灯带那样批量生产,柔性电路板像席子一样卷起来,那这个神经网络的规模也可以做得非常庞大。
如果结合成熟工艺做成细薄的芯片,并用于大面积柔性卷绕电路板上,那么所谓的“先进工艺”在成本上未必还有优势。
英伟达支持者们:
如果你们挑不出错处来,
很快全世界都会刊登这样一条新闻:
英伟达公司近日被中国无名氏贴脸开大!!
注:我方电路未计入结果合并加法计算、PWM开关、及电阻网络电阻切换开关能耗。