Roofline
文章平均质量分 95
图波列夫
这个作者很懒,什么都没留下…
展开
-
Gables: A Roofline Model for Mobile SoCs
为了帮助构建 SoC 思维并指导早期移动 SoC 设计,Gables: A Roofline Model for Mobile SoCs 提出了 Gables 模型,该模型改进和重新定位了 Roofline 模型(最初为多核芯片的性能和带宽限制而设计)来对 SoC 上的每个加速器进行建模,在不同的加速器之间并发的分配工作(由文中用例分析证明),并计算 SoC 性能上限。作者使用现有 SoC (Snapdragon 835)评估 Gables 模型并开发了多个扩展,使 Gables 能够为早期移动 SoC 设原创 2022-02-12 21:03:11 · 932 阅读 · 0 评论 -
Applying the Roofline Model for Deep Learning performance optimizations
Applying the Roofline Model for Deep Learning performance optimizations 以 Intel Xeon 为例,介绍了一种为非统一内存访问( NonUnified Memory Access,NUMA[8])自动创建 Roofline 模型的方法,并对 Intel oneDNN 库中实现的高效深度学习原语进行了评估。2 Description of methodology所有实验均在禁用 Intel Turbo Boost 技术的 Inte原创 2022-01-15 11:49:02 · 916 阅读 · 0 评论 -
Roofline Model Toolkit: A Practical Tool for Architectural and Program Analysis
Roofline Model Toolkit: A Practical Tool for Architectural and Program Analysis 描述了 Roofline Toolkit 的原型架构表征引擎。该引擎由一组使用消息传递接口(Message Passing Interface,MPI )以及用于表示线程级并行性的 OpenMP 实现的便携式设备化微基准组成,可量化多核、众核和加速系统的带宽和计算特性。这些微观测试侧重于在编译器和运行时环境以及线程级并行、指令级并行和显式 SIMD原创 2021-12-25 15:58:46 · 909 阅读 · 0 评论 -
Roofline-on-NVIDIA-GPUs代码分析
Roofline 代码现状:CS Roofline Toolkit 为 Roofline Model Toolkit: A Practical Tool for Architectural and Program Analysis 的实现,uo-cdux/ert-mirror 为 github 上的一个镜像;cyanguwa/nersc-roofline 为 Hierarchical Roofline Analysis: How to Collect Data using Performance To原创 2021-12-04 10:28:22 · 2086 阅读 · 0 评论 -
Hierarchical Roofline Performance Analysis for Deep Learning Applications
Roofline 模型是劳伦斯伯克利国家实验室在2008年提出的一个性能模型,后续很多工作亦出自该实验室。考虑到分层 Roofline 这一概念已在先前的Hierarchical Roofline analysis for GPUs: Accelerating performance optimization for the NERSC-9 Perlmutter system 和 Hierarchical Roofline Analysis: How to Collect Data using Perfo原创 2021-11-28 21:37:31 · 855 阅读 · 0 评论