Design and Implementation of a Highly Efficient DGEMM for 64-bit ARMv8 Multi-Core Processors
Design and Implementation of a Highly Efficient DGEMM for 64-bit ARMv8 Multi-Core Processors 针对64位 ARMv8八核处理器,设计并实现了一种基于 OpenBLAS 的高效 DGEMM。作者首先为此架构开发性能模型,然后根据理论指导用汇编语言系统地开发高度优化的 GEBP 内核。性能模型表明,优化 DGEMM 的峰值性能(效率)需要在内存层次结构的所有级别上最大化其计算内存访问比率。而提高 GEBP 的性能的主要
原创
2022-01-01 11:20:01 ·
1542 阅读 ·
0 评论