常见的GPU性能对比

写这篇博客的目的就是想搞清楚英伟达不同显卡之间的性能差异以及移动端GPU的性能达到了英伟达显卡的哪一代,让自己也让大家明白不同显卡的算力差异。所有的数据均从网络搜索,有不正确的地方欢迎批评指正。同一显卡会有一个首次发布,此外还有一系列的迭代升级版本,我们只考虑首次发布版本的性能。鉴于现在的模型推理大多使用int8来进行推理,所以大家可以着重看一下int8算力那一列。   

1. 英伟达GPU

型号

显存带宽

显存位宽

fp32算力

fp16算力

int8算力

TDP功耗

架构

制程

计算能力

首次发布

GTX1080

320GB/s

256bit

8.9T

138G

35.5T

180W

Pascal

14nm

6.1

2016.05

GTX1080Ti

484GB/s

352bit

11.3T

177G

45.2T

250W

Pascal

14nm

6.1

2017.03

P4

192GB/s

256bit

5T

X

20T

75W

Pascal

14nm

6.1

2016.09

V100 PCIe

900GB/s

4096bit

14T

112T

224T

250W

Volta

12nm

7.0

2018.03

RTX2080

448GB/s

256bit

10T

20T

80T

215W

Turing

12nm

7.5

2018.09

RTX2080Ti

616GB/s

352bit

13.4T

26.9T

108T

250W

Turing

12nm

7.5

2018.09

T4

320GB/s

256bit

8.1T

64.8T

130T

70W

Turing

12nm

7.5

2018.09

A100 PCIe

1935GB/s

5120bit

156T

312T

624T

300W

Ampere

7nm

8.0

2020.05

A100 SXM

2039GB/s

5120bit

312T

624T

1248T

400W

Ampere

7nm

8.0

2020.05

RTX3070

448GB/s

256bit

20T

40T

163T

220W

Ampere

7nm

8.6

2020.10

RTX3080

760GB/s

320bit

30T

60T

238T

350W

Ampere

7nm

8.6

2020.09

RTX3090

936GB/s

384bit

35.6T

71.2T

285T

350W

Ampere

7nm

8.6

2020.09

RTX3090Ti

1008GB/s

384bit

40T

80T

321T

450W

Ampere

7nm

8.6

2022.03

RTX4060

272GB/s

128bit

15.1T

30.2T

242T

115W

Ada Lovelace

5nm

8.9

2023.06

RTX4070

504GB/s

192bit

29.1T

58.2T

466T

200W

Ada Lovelace

5nm

8.9

2023.04

RTX4080

504GB/s

192bit

40.1T

80.2T

780T

320W

Ada Lovelace

5nm

8.9

2022.11

RTX4090

1008GB/s

384bit

82.6T

165.2T

1321T

450W

Ada Lovelace

5nm

8.9

2022.10

H100 SXM

3.35TB/s

5120bit

989T

1929T

3958T

700W

Hopper

4nm

9.0

2022.03

参考:

  1. 不用老黄上场,看我如何用GTX1080来撕谷歌的TPU
  2. RTX2080和GTX1080哪个值得买 GTX1080和RTX2080区别对比评测
  3. NVIDA GPU卡SXM和PCIe之间的差异性,一偏文章帮你分析清楚
  4. NVDIA GPU参数列表: 3090,4090, A40, A30,V100, A100, A800性能参数
  5. Your GPU Compute Capability
  6. NVIDIA T4
  7. List of Nvidia graphics processing units
  8. 巅峰对决:英伟达 V100、A100/800、H100/800 GPU 对比

2. 移动端CPU

移动端CPU的芯片包含GPU和NPU,但是从算力上来讲,NPU的算力要远大于GPU,所以我们更关注NPU的算力。苹果M系列芯片虽然也是用在桌面端的,但是属于CPU内部集成了GPU和NPU,我们也把它放在移动端CPU里。

2.1 高通骁龙系列:

内存带宽

GPU型号

GPU算力

NPU型号

NPU int8算力

TDP功耗

制程

发布时间

845

29.8GB/s

Adreno 630

0.7T

Hexagon 685

3T

9W

10nm

2018Q1

855

34.1GB/s

Adreno 640

0.9T

Hexagon 690

7T

6W

7nm

2019Q1

865

34.1GB/s

Adreno 650

0.9T

Hexagon 698

15T

5W

7nm

2020Q1

870

34.1GB/s

Adreno 650

1T

Hexagon 698

15T

6W

7nm

2021Q1

888

51.2GB/s

Adreno 660

1.3T

Hexagon 780

26T

8W

5nm

2021Q1

888+

51.2GB/s

Adreno 660

1.3T

Hexagon 780

32T

8W

5nm

2021Q3

8gen1

51.2GB/s

Adreno 730

1.7T

Hexagon 790

52T

5.3W

4nm

2021Q4

8+gen1

51.2GB/s

Adreno 730

1.8T

Hexagon 790

52T

6W

4nm

2022Q2

8gen2

67.2GB/s

Adreno 740

2.1T

Hexagon

?

6.3W

4nm

2022Q4

8gen3

76.8GB/s

Adreno 750

2.8T

Hexagon

73T?

6.3W

4nm

2023Q4

参考:

  1. 四大升级!骁龙8 Gen3这下稳了:高通一代神U
  2. List of Qualcomm Snapdragon systems on chips

2.2 联发科天玑系列:

GPU型号

GPU算力

NPU型号

NPU int8算力

制程

发布时间

8100

Mali G610

0.9T

APU 580

5nm

2022Q1

8200

Mali G610

APU 580

4nm

2022Q4

8300

Mali G615

APU 780

4nm

2023Q4

9000

Mali G710

1.6T

APU 590

4nm

2021Q4

9200

Immortali G715

APU 690

4nm

2022Q4

9200+

Immortali G715

APU 690

4nm

2023Q2

9300

Immortali G720

APU 790

4nm

2023Q4

9300+

Immortali G720

APU 790

4nm

2024Q2

搜不到相关信息,欢迎提供资料。

参考:

1. List of MediaTek systems on chips

2.3 苹果A系列:

内存带宽

GPU算力

int8算力

TDP功耗

制程

发布时间

      A11 Bionic

34.1GB/s

0.4T

0.6T

8W

10nm

2017Q3

      A12 Bionic

34.1GB/s

0.6T

5T

6W

7nm

2018Q3      

     A12X Bionic

68.2GB/s

1T

5T

7nm

2018Q4

     A12Z Bionic

68.2GB/s

1.1T

5T

7nm

2020Q1

      A13 Bionic

34.1GB/s

0.7T

5.5T

6W

7nm

2019Q3

      A14 Bionic

34.1GB/s

0.7T

11T

6W

5nm

2020Q4

      A15 Bionic

34.1GB/s

1.7T

15.8T

6W

5nm

2021Q3

      A16 Bionic

51.2GB/s

1.8T

17T

8W

4nm

2022Q3

       A17Pro

51.2GB/s

2.1T

35T

8W

3nm

2023Q3

 

参考:

  1. Apple silicon
  2. Snapdragon 8 Gen 3 vs A17 Pro
  3. Snapdragon 8 Gen 3 vs A16 Bionic

2.4 苹果M系列:

内存带宽

内存位宽

FP32算力

int8算力

制程

发布时间

M1

68GB/s

128bit

2.6T

11T

5nm

2020Q4

M1 Pro

205GB/s

256bit

5.3T

11T

5nm

2021Q4

M1 Max

410GB/s

512bit

10.6T

11T

5nm

2021Q4

M1 Ultra

819GB/s

1024bit

21.2T

22T

5nm

2022Q1

M2

102GB/s

128bit

3.6T

16T

5nm

2022Q2

M2 Pro

205GB/s

256bit

6.8T

16T

5nm

2023Q1

M2 Max

410GB/s

512bit

13.6T

16T

5nm

2023Q1

M2 Ultra

819GB/s

1024bit

27T

32T

5nm

2023Q2

M3

102GB/s

128bit

3.5T

18T

3nm

2023Q4

M3 Pro

153GB/s

192bit

6.4T

18T

3nm

2023Q4

M3 Max

410GB/s

512bit

14T

18T

3nm

2023Q4

M4

120GB/s

128bit

3.7T

38T

3nm

2024Q2

参考:

  1. Apple silicon

3. 一些结论

  1. 目前最强的GPU芯片当属NVIDIA H100,当然很快就会被B100所替代,其他家的芯片难以望其项背,而且差距没有缩小的迹象;
  2. 骁龙8gen3芯片的NPU算力搜不到,大概预估在100T左右,也就刚到18年GTX2080Ti的水准,说明目前的移动端GPU比桌面端GPU要落后6年以上,而且受限于移动端的功耗和尺寸限制,这个差距应该永远无法缩小了。不过也不用太过灰心,18年的时候深度学习已经非常火热,也出现了很多成熟的AI落地,再加上这几年AI的持续进步,所以当下的AI模型在端侧的水准是肯定高于18年的;
  3. 目前英伟达的主流芯片:4090,A100,H100我们该如何选择?有钱有途径那肯定是H100。我们从需求侧来分析,假设你的需求是计算密集型的,4090足够了,它的int8性能比A100高性能版都要强;但是如果你的需求是通信密集型的,还是A100和H100更合适,因为它们的显存带宽会更大;
  4. 苹果手机卖得贵一个原因就是大家认为它的芯片好,但是从NPU的性能上来看,它不值现在的价格,有点被高估。从我们实际做实验的结论来看,苹果的NPU算力确实没有高通骁龙强,不过还是要强于联发科天玑芯片。

4. 一些猜测

  1. 英伟达GPU的性能上限可以到多少?B100还没有上市,但是芯片制程应该是3nm,高性能版的int8算力应该可以达到8P左右。假设芯片制程最低可以到1nm,我们推测GPU芯片的性能还可以继续提升,即使到达瓶颈还可以通过堆叠的方式进一步扩大芯片规模。此外,后续的主流推理可能开始使用int4或者fp4格式,这样就可以使得算力再加倍。我个人推测在未来10年,英伟达的芯片算力会持续提升,int8算力的上限有望达到100p,也即一张卡可以抵100张A100,当然那时的功耗也会比较夸张;
  2. 移动端GPU的性能上限能到多少呢?相比桌面端GPU,我个人持谨慎悲观的态度。单颗芯片的NPU算力上限可能也就到500T以内,达到4070的水平。但是移动端是否也可以通过多卡的方式实现算力的暴增呢,这也说不定;
  3. 很多人说今年是AI PC的元年,我理解真正实现AI PC的推广,算力至少要达到4090这个水准,也即单卡的算力要到1P以上。那么AI手机什么时候真正出现呢,我觉得可能用不了6年那么久(移动端GPU追上当下桌面端GPU性能的时间),随着AI的快速迭代,可能也就3、4年即2027年就会出现真正意义上的AI手机;
  4. 现在我们主要关注的性能指标就是int8推理和显存带宽,再过一年说不定关注的重点就变成int4推理性能和显存带宽了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值