目录
最近考虑用什么显卡来做AI训练,既不想太笨重,又希望有较强的计算能力。
纠结于用游戏本,还是用台式机,或者是用云计算平台?网上查了一些资料,稍微整理一下,方便以后对比查询,也给需要的朋友一些便利。
对于显卡的深度学习训练能力,我们不能只关注它有多少CUDA内核,还要看它的频率,显存,显存位宽等,比较客观的一个指标是看它的单精度性能(FP32)性能有多少Tflops。
Tflops理论峰值:
单精度理论峰值= GPU芯片数量*GPU Boost主频*核心数量*单个时钟周期内能处理的浮点计算次数。
单精度理论峰值 = FP32 cores * GPU Boost Clock * 2。
笔记本显卡:
AI大咖性能对比:
云服务器显卡对比:
这是某云服务器平台所用显卡的参数对比。
从NVIDIA的网站上,可以看到,上面的显卡还在多家云平台使用。
MX450单挑GTX1650:
某网页给出的指标,可以看到超频的MX450的FP32计算能力已经超过了GTX1650。
GTX1650 :128bit位宽以及192GB/s带宽,流处理器896个,频率为1350~1486MHZ,4G显存;
MX450:64bit位宽以及80GB/s带宽(支持PCIE 4.0),流处理器896个,频率为1395~1575MHz,2G显存;
实际上,MX450显存少了一半,虽然流处理器数量还不错,但显卡位宽少了一半,显存带宽也低了一半,在有些场景下还是有差距的。
新一代移动版显卡性能对比:
Jetson Nano: 128 * ?GHz * 2 = 0.472 TFlops
GeForce MX 450: 896 * 1.575GHz * 2 = 2.8 TFlops
GeForce RTX 3060: 3840 * 1.70GHz * 2 = 13.1 TFlops
GeForce RTX 3070: 5120 * 1.62GHz * 2 = 16.6 TFlops
GeForce RTX 3080: 6144 * 1.71GHz * 2 = 21.0 TFlops
RTX30 系列台式机显卡性能对比:
GeForce RTX 3060: 3584 * 1.78GHz * 2 = 12.8 TFlops
GeForce RTX 3060Ti: 4864 * 1.67GHz * 2 = 16.2 TFlops
GeForce RTX 3070: 5888 * 1.73GHz * 2 = 20.4 TFlops
GeForce RTX 3080: 8704 * 1.71GHz * 2 = 29.8 TFlops
GeForce RTX 3090: 10496 * 1.7GHz * 2 = 35.7 TFlops
JD上报价合适一点的显卡,基本上是缺货状态,借两张图,记录其价格。
好多店有货,但是价格比较高,某店 Gigabyte/技嘉RTX3080 10G 游戏显卡 RTX3080 GAMING OC-10GD魔鹰,报价:¥ 14099.00。
大家闲来无事,拿个板凳坐着,时常看看,慢慢等,总有一天能买到合适的吧!
小结:
俗话说,显卡买新不买旧,新的构架,效率高一些,计算力更强一些。可以看到,MX450已经可以单挑GTX1650了。而新出的RTX30系列移动版,也可以与原来的大牛Tesla V100 和 P40一较高下了。
选择的时候,除了要看是哪一款显卡,有多少独立显存,还要看显卡能够跑到最大频率是多少。有的笔记本为了控制散热问题,会对频率做限制,有的游戏本厂商为了性能,会采用台式机显卡,这种游戏本性能强一些,但是往往比较笨重。
从我的角度来看,为了便携方便,满血的RTX3060和频率低一些的RTX3070都行,性能差不太多,频率高的话散热是个问题,会比较笨重;台式机的话,RTX3080比较合适,RTX3090性能增加不多,价格却高不少。
老徐 2021 / 3 /17