测试结果
测试平台:
显卡:影驰金属大师4090
cpu:i7 12700k
测试方法
测试
1.矩阵计算速度
transformer的核心操作是矩阵乘法,通过测试矩阵计算的tflops可以得到硬件的计算上限。
matmul_tflops = defaultdict(lambda: {})
for n in [128, 512, 2048, 8192]: #四种大小的矩阵
for dtype in (torch.float32, torch.float16):
a =