漫谈高性能计算与性能优化：访存

最新推荐文章于 2024-07-24 20:17:35 发布

知识搬运工人

最新推荐文章于 2024-07-24 20:17:35 发布

阅读量38

点赞数

文章标签：性能优化

原文链接：https://zhuanlan.zhihu.com/p/600489819

版权

请移步至：漫谈高性能计算与性能优化：访存 - 知乎 (zhihu.com)

1. 并行算法
目前单核处理器性能已经碰到了瓶颈，想通过单核上的优化去显著提高算力已经是一个非常困难的事情了。但是，现在对算力的需求却日益剧增，科学与工业领域需要更多的算力进行仿真模拟，游戏渲染需要更多的算力满足人的娱乐需求，人工智能领域需要更多的算力进行模型训练和推理服务。因而，对算力的巨大需求促使了英伟达的股价近十年内一轮又一轮地暴涨以及目前异构加速器遍地开花。所有人都知道这是块肥肉，大家都想吃上一口。而从最底层角度而言，所有的一切都源于一件事情，并行算法可以将单核的任务划分到多核异构设备上从而实现加速。这个事情保证了，在一个可以并行的算法上，计算核心越多，理论上，你的代码就能跑地越快，人类社会的发展也能越快。
不过，说实话，我一直觉得并行算法是一个非常难的课题，并行算法的思维是非常反人类的。

2. 性能优化方法论
这一节聊聊性能优化方法论。当不同的人谈论性能优化的时候，脑子里面想的东西还不一定是同一个事。当搞网络的人谈性能优化，想的可能是怎么降低网络延时，想的是网络协议和socket相关的东西。当搞数据库的人谈性能优化，想的可能是怎么减少查询数据库的耗时，想的可能是多级索引，尽可能地减少对磁盘的访问。当搞HPC的人谈性能优化，估计脑子里立马就涌现出cache、分块、SIMD相关的概念。所以这里还是得说明白，这篇文章里面讲的性能优化是HPC相关从业者脑子里的那种性能优化。

2.1. 减少数据搬运。

现代计算架构都是多级存储，需要一级一级地将数据往计算单元上搬。如何减少数据搬运，最主要的手段就是分块，或者说tiling。之前在我的博客里面详细地介绍了GEMM中的三级分块策略，具体可以看看下面链接。

有了琦琦的棍子：深入浅出GPU优化系列：GEMM优化（一）816 赞同 · 77 评论文章编辑

2.2. 减少数据访存延时。

首先是减少bank冲突，

有了琦琦的棍子：深入浅出GPU优化系列：GEMM优化（三）217 赞同 · 78 评论文章编辑

其次是软流水，有的时候叫double buffer，有的时候叫ping pong操作，我觉得跟预取也差不多，其思想都是一样的，就是访存和计算错开，让流水更加顺畅，减少计算等待访存导致的空泡。

最后的技巧其实跟前面的软流水是一个道理，就是切分更多的块，启动更多的warp来掩盖访存延时。

Sparse GPU Kernels for Deep Learningarxiv.org/abs/2006.10901编辑

2.3. 保证负载均衡。

3. 性能分析
本节介绍性能分析，也就是profiling。这个部分实在是太过于重要，所以必须单独拎出来放在一节讲。在分析任何具体的问题时，都必须做充足的profiling。其实当我们谈优化的时候，需要做的工作，就是profiling找到性能瓶颈，对性能瓶颈优化，再profiling找到性能瓶颈，再对性能瓶颈优化。不断重复，直到接近硬件瓶颈或者达到想要的目标即可。
4. 小结和感悟
4.1. 经验or完善的知识体系。

4.2. 通用代码or针对性优化。

4.3. 正确地评估和认识。

知识搬运工人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
漫谈高性能计算与性能优化：访存

文章分为4个部分，第一个部分聊聊并行算法，第二个部分系统地说一下性能优化的方法论，第三个部分介绍一下性能分析，第四个部分介绍一下小结和感悟。说的东西不一定准确，如果有错误的地方，也麻烦各位批评指正
复制链接

扫一扫