常见的GPU性能对比

置顶 yutianzuijin

已于 2025-04-18 13:42:53 修改

阅读量8.2k

点赞数 15

分类专栏： CUDA编程文章标签： gpu算力英伟达高通苹果算力 int8

于 2024-08-14 17:53:59 首次发布

本文链接：https://blog.csdn.net/yutianzuijin/article/details/141196828

版权

CUDA编程专栏收录该内容

9 篇文章

订阅专栏

写这篇博客的目的就是想搞清楚英伟达不同显卡之间的性能差异以及移动端GPU的性能达到了英伟达显卡的哪一代，让自己也让大家明白不同显卡的算力差异。所有的数据均从网络搜索，有不正确的地方欢迎批评指正。同一显卡会有一个首次发布，此外还有一系列的迭代升级版本，我们只考虑首次发布版本的性能。鉴于现在的模型推理大多使用int8来进行推理，所以大家可以着重看一下int8算力那一列。

1. 英伟达GPU

型号	显存带宽	显存位宽	fp32算力	fp16算力	int8算力	TDP功耗	架构	制程	计算能力	首次发布
GTX1080	320GB/s	256bit	8.9T	138G	35.5T	180W	Pascal	14nm	6.1	2016.05
GTX1080Ti	484GB/s	352bit	11.3T	177G	45.2T	250W	Pascal	14nm	6.1	2017.03
P4	192GB/s	256bit	5T	X	20T	75W	Pascal	14nm	6.1	2016.09
V100 PCIe	900GB/s	4096bit	14T	112T	224T	250W	Volta	12nm	7.0	2018.03
RTX2080	448GB/s	256bit	10T	20T	80T	215W	Turing	12nm	7.5	2018.09
RTX2080Ti	616GB/s	352bit	13.4T	26.9T	108T	250W	Turing	12nm	7.5	2018.09
T4	320GB/s	256bit	8.1T	64.8T	130T	70W	Turing	12nm	7.5	2018.09
A100 PCIe	1935GB/s	5120bit	156T	312T	624T	300W	Ampere	7nm	8.0	2020.05
A100 SXM	2039GB/s	5120bit	312T	624T	1248T	400W	Ampere	7nm	8.0	2020.05
RTX3070	448GB/s	256bit	20T	40T	163T	220W	Ampere	7nm	8.6	2020.10
RTX3080	760GB/s	320bit	30T	60T	238T	350W	Ampere	7nm	8.6	2020.09
RTX3090	936GB/s	384bit	35.6T	71.2T	285T	350W	Ampere	7nm	8.6	2020.09
RTX3090Ti	1008GB/s	384bit	40T	80T	321T	450W	Ampere	7nm	8.6	2022.03
RTX4060	272GB/s	128bit	15.1T	30.2T	242T	115W	Ada Lovelace	5nm	8.9	2023.06
RTX4070	504GB/s	192bit	29.1T	58.2T	466T	200W	Ada Lovelace	5nm	8.9	2023.04
RTX4080	504GB/s	192bit	40.1T	80.2T	780T	320W	Ada Lovelace	5nm	8.9	2022.11
RTX4090	1008GB/s	384bit	82.6T	165.2T	1321T	450W	Ada Lovelace	5nm	8.9	2022.10
H100 SXM	3.35TB/s	5120bit	989T	1929T	3958T	700W	Hopper	4nm	9.0	2022.03

RTX5060	448GB/s	128bit	19.2T	154T	308T	145W	Blackwell	4nm	12.0	2025.05
RTX5070	672GB/s	192bit	31T	247T	494T	250W	Blackwell	4nm	12.0	2025.03
RTX5080	960GB/s	256bit	56T	450T	900T	360W	Blackwell	4nm	12.0	2025.01
RTX5090	1792GB/s	512bit	105T	838T	1776T	575W	Blackwell	4nm	12.0	2025.01

参考：

2. 移动端CPU

移动端CPU的芯片包含GPU和NPU，但是从算力上来讲，NPU的算力要远大于GPU，所以我们更关注NPU的算力。苹果M系列芯片虽然也是用在桌面端的，但是属于CPU内部集成了GPU和NPU，我们也把它放在移动端CPU里。

2.1 高通骁龙系列：

	内存带宽	GPU型号	GPU算力	NPU型号	NPU int8算力	TDP功耗	制程	发布时间
845	29.8GB/s	Adreno 630	0.7T	Hexagon 685	3T	9W	10nm	2018Q1
855	34.1GB/s	Adreno 640	0.9T	Hexagon 690	7T	6W	7nm	2019Q1
865	34.1GB/s	Adreno 650	0.9T	Hexagon 698	15T	5W	7nm	2020Q1
870	34.1GB/s	Adreno 650	1T	Hexagon 698	15T	6W	7nm	2021Q1
888	51.2GB/s	Adreno 660	1.3T	Hexagon 780	26T	8W	5nm	2021Q1
888+	51.2GB/s	Adreno 660	1.3T	Hexagon 780	32T	8W	5nm	2021Q3
8gen1	51.2GB/s	Adreno 730	1.7T	Hexagon 790	52T	5.3W	4nm	2021Q4
8+gen1	51.2GB/s	Adreno 730	1.8T	Hexagon 790	52T	6W	4nm	2022Q2
8gen2	67.2GB/s	Adreno 740	2.1T	Hexagon	?	6.3W	4nm	2022Q4
8gen3	76.8GB/s	Adreno 750	2.8T	Hexagon	73T?	6.3W	4nm	2023Q4

8 Elite

85.3GB/s

Adreno 830

3.4T

Hexagon

80T?

3nm

2024Q4

参考：

2.2 联发科天玑系列：

	GPU型号	GPU算力	NPU型号	NPU int8算力	制程	发布时间
8100	Mali G610	0.6T	APU 580		5nm	2022Q1
8200	Mali G610	0.7T	APU 580		4nm	2022Q4
8300	Mali G615	1.0T	APU 780		4nm	2023Q4
9000	Mali G710	1.0T	APU 590		4nm	2021Q4
9200	Immortali G715	2.7T	APU 690	30T?	4nm	2022Q4
9200+	Immortali G715	2.7T	APU 690	30T?	4nm	2023Q2
9300	Immortali G720	4T	APU 790	60T?	4nm	2023Q4
9300+	Immortali G720	4T	APU 790	60T?	4nm	2024Q2

9400

Immortali G925

APU 890

3nm

2024Q4

参考：

1. List of MediaTek systems on chips

2. 天玑9300+继续冲高，联发科艰难突围

3. 首款生成式AI移动芯片天玑9300：能跑330亿参数大模型

2.3 苹果A系列：

	内存带宽	GPU算力	int8算力	TDP功耗	制程	发布时间
A11 Bionic	34.1GB/s	0.4T	0.6T	8W	10nm	2017Q3
A12 Bionic	34.1GB/s	0.6T	5T	6W	7nm	2018Q3
A12X Bionic	68.2GB/s	1T	5T		7nm	2018Q4
A12Z Bionic	68.2GB/s	1.1T	5T		7nm	2020Q1
A13 Bionic	34.1GB/s	0.7T	5.5T	6W	7nm	2019Q3
A14 Bionic	34.1GB/s	0.7T	11T	6W	5nm	2020Q4
A15 Bionic	34.1GB/s	1.7T	15.8T	6W	5nm	2021Q3
A16 Bionic	51.2GB/s	1.8T	17T	8W	4nm	2022Q3
A17Pro	51.2GB/s	2.1T	35T	8W	3nm	2023Q3

A18	60GB/s	2.15T	35T	8W	3nm	2024Q3
A18Pro	60GB/s	2.58T	35T	8W	3nm	2024Q3

参考：

2.4 苹果M系列：

	内存带宽	内存位宽	FP32算力	int8算力	制程	发布时间
M1	68GB/s	128bit	2.6T	11T	5nm	2020Q4
M1 Pro	205GB/s	256bit	5.3T	11T	5nm	2021Q4
M1 Max	410GB/s	512bit	10.6T	11T	5nm	2021Q4
M1 Ultra	819GB/s	1024bit	21.2T	22T	5nm	2022Q1
M2	102GB/s	128bit	3.6T	16T	5nm	2022Q2
M2 Pro	205GB/s	256bit	6.8T	16T	5nm	2023Q1
M2 Max	410GB/s	512bit	13.6T	16T	5nm	2023Q1
M2 Ultra	819GB/s	1024bit	27T	32T	5nm	2023Q2
M3	102GB/s	128bit	3.5T	18T	3nm	2023Q4
M3 Pro	153GB/s	192bit	6.4T	18T	3nm	2023Q4
M3 Max	410GB/s	512bit	14T	18T	3nm	2023Q4
M4	120GB/s	128bit	3.7T	38T	3nm	2024Q2

参考：

Apple silicon

3. 一些结论

目前最强的GPU芯片当属NVIDIA H100，当然很快就会被B100所替代，其他家的芯片难以望其项背，而且差距没有缩小的迹象；
骁龙8gen3芯片的NPU算力搜不到，大概预估在100T左右，也就刚到18年GTX2080Ti的水准，说明目前的移动端GPU比桌面端GPU要落后6年以上，而且受限于移动端的功耗和尺寸限制，这个差距应该永远无法缩小了。不过也不用太过灰心，18年的时候深度学习已经非常火热，也出现了很多成熟的AI落地，再加上这几年AI的持续进步，所以当下的AI模型在端侧的水准是肯定高于18年的；
目前英伟达的主流芯片：4090，A100，H100我们该如何选择？有钱有途径那肯定是H100。我们从需求侧来分析，假设你的需求是计算密集型的，4090足够了，它的int8性能比A100高性能版都要强；但是如果你的需求是通信密集型的，还是A100和H100更合适，因为它们的显存带宽会更大；
苹果手机卖得贵一个原因就是大家认为它的芯片好，但是从NPU的性能上来看，它不值现在的价格，有点被高估。从我们实际做实验的结论来看，苹果的NPU算力确实没有高通骁龙强，不过还是要强于联发科天玑芯片。

4. 一些猜测

英伟达GPU的性能上限可以到多少？B100还没有上市，但是芯片制程应该是3nm，高性能版的int8算力应该可以达到8P左右。假设芯片制程最低可以到1nm，我们推测GPU芯片的性能还可以继续提升，即使到达瓶颈还可以通过堆叠的方式进一步扩大芯片规模。此外，后续的主流推理可能开始使用int4或者fp4格式，这样就可以使得算力再加倍。我个人推测在未来10年，英伟达的芯片算力会持续提升，int8算力的上限有望达到100p，也即一张卡可以抵100张A100，当然那时的功耗也会比较夸张；
移动端GPU的性能上限能到多少呢？相比桌面端GPU，我个人持谨慎悲观的态度。单颗芯片的NPU算力上限可能也就到500T以内，达到4070的水平。但是移动端是否也可以通过多卡的方式实现算力的暴增呢，这也说不定；
很多人说今年是AI PC的元年，我理解真正实现AI PC的推广，算力至少要达到4090这个水准，也即单卡的算力要到1P以上。那么AI手机什么时候真正出现呢，我觉得可能用不了6年那么久（移动端GPU追上当下桌面端GPU性能的时间），随着AI的快速迭代，可能也就3、4年即2027年就会出现真正意义上的AI手机；
现在我们主要关注的性能指标就是int8推理和显存带宽，再过一年说不定关注的重点就变成int4推理性能和显存带宽了。