通用矩阵乘法(GEMM)优化——基于arm neon
GEMM 优化报告实验任务实现矩阵乘法 C=A∗BC=A*BC=A∗B,其中,AAA, BBB, CCC 是N∗NN*NN∗N 的单精度稠密矩阵。本实验中矩阵均为column major。实验环境华为鲲鹏920:aarch64架构,64核CPU,CPU最高工作频率2600MHz。L1d cache:64KBL1i cache:64KBL2 cache:512KBL3 cache:32768KBPage size:65536Byte测试用例测试用例中我们选取的矩阵规模为n∈{32∗k±1
原创
2021-03-28 22:52:10 ·
5913 阅读 ·
14 评论