Arm X86 体系结构
Join_It
这个作者很懒,什么都没留下…
展开
-
Matmul x86性能优化笔记
类似设计方案:block 3x32 4x24 6x16 12x8 原始方案:6x16对输入进行重排,导致耗时很长 新方案好处:整体的IO次数降低,会有cache miss严重,input不重排,weight利用率更好(空间局部性和时间局部性) 使用小shape测试,性能提升1/4,但是未进行数据预取和指令流水线展开,还有优化空间。 使用模型测试,未提升1/4 分析:未进行数据预取和循环展开,以及未对L1进行分析。 3x32 和L1cache分析: 原始没有提升的shape是[8, 2048]X[2048,原创 2022-01-13 18:39:55 · 163 阅读 · 0 评论 -
深入了解Arm和X86 Cache共享级别
sdnakskams原创 2021-10-08 18:35:30 · 1253 阅读 · 0 评论