BOLT- 识别和优化热门的基本块

青衫客36

于 2023-08-11 23:53:19 发布

阅读量689

点赞数

分类专栏：编译优化文章标签：编译优化

本文链接：https://blog.csdn.net/weixin_43844521/article/details/132241608

版权

编译优化专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在BOLT中，识别和优化热门的基本块之所以关键，是因为BOLT的主要目标是优化程序以更好地利用硬件特性，特别是指令缓存（ICache）。以下是BOLT如何识别和优化热门基本块的流程：

收集性能数据:
- BOLT开始的时候并不知道哪些基本块是“热”的，因此它首先需要运行目标程序并收集性能数据。
- 使用诸如Linux的perf工具，BOLT记录程序的执行profile，确定哪些基本块和函数被频繁地执行。
- 这种profile-guided的方法确保BOLT的优化是基于真实的程序行为，而不是某种静态分析或猜测。
基本块的重新布局:
- 一旦识别了热门的基本块，BOLT的下一步是确定如何重新布局这些块以优化ICache性能。
- BOLT会将经常连续执行的基本块放在一起，这样当一个基本块在ICache中时，其后续的基本块很可能也在同一个ICache行或附近的行中。
- 这减少了ICache不命中的次数，从而提高了性能。
循环优化:
- 由于循环中的代码会被反复执行，因此它们通常是性能关键区域。BOLT会特别关注这些区域，确保循环的基本块在物理存储中是连续的。
- 这不仅优化了ICache的命中率，还有助于减少分支预测错误和其他前端停顿[1]。
分支预测优化:
- BOLT不仅考虑ICache，它还尝试减少分支预测错误。通过重新布局基本块，BOLT可以确保热门路径中的分支更容易被正确预测。
跳转优化:
- 重新布局基本块可能会导致一些跳转变得更长。BOLT会尝试优化这些跳转，例如通过使用跳转表，或者在可能的情况下，使用更短的跳转指令。
进一步的数据流和控制流优化:
- 除了布局优化，BOLT还会尝试其他类型的优化，这些优化可能特别有利于热门基本块。例如，常量传播、死代码消除和其他传统的编译器优化技术。

通过上述流程，BOLT系统地识别和优化热门基本块，从而提高程序的整体性能。这种方法的优势在于它基于真实的程序执行数据，因此优化更有可能在实际运行中产生明显的性能提升。

[1] “前端停顿”是指在处理器的前端（取指、译码阶段）所遇到的各种延迟或阻塞。处理器的前端是指令获取、解码和发射到执行管道的部分。这一阶段的主要任务是以稳定和高效的速度从内存中取得指令，并为后续的执行阶段提供准备好的指令。

前端停顿可能包括：

ICache不命中：如果所需的指令不在指令缓存（ICache）中，处理器需要从内存或更高级的缓存中取得指令，这会导致延迟。
分支预测错误：现代处理器使用分支预测器来猜测条件分支（例如if语句）会采取哪条路径。如果预测错误，处理器需要撤销错误路径上的指令并加载正确路径的指令，这会导致延迟。
指令获取带宽限制：由于各种原因，如资源冲突或复杂指令的解码，处理器可能无法在每个周期内从内存中取得最大数量的指令。
指令队列的阻塞：如果指令队列（一个存储待执行指令的缓冲区）满了，新的指令无法被取出和解码，直到之前的指令完成。
TLB不命中：TLB用于快速翻译虚拟地址到物理地址。TLB不命中会导致处理器需要执行完整的页面表查找，进一步增加延迟。

在优化循环时，降低前端停顿非常关键。因为循环中的指令会被多次执行，所以任何在前端遇到的延迟或阻塞都会被放大。BOLT通过确保循环中的基本块在物理存储上是连续的，可以减少多种前端停顿，从而提高程序的整体性能。

青衫客36

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
BOLT- 识别和优化热门的基本块

这一阶段的主要任务是以稳定和高效的速度从内存中取得指令，并为后续的执行阶段提供准备好的指令。在BOLT中，识别和优化热门的基本块之所以关键，是因为BOLT的主要目标是优化程序以更好地利用硬件特性，特别是指令缓存（ICache）。如果预测错误，处理器需要撤销错误路径上的指令并加载正确路径的指令，这会导致延迟。：如果所需的指令不在指令缓存（ICache）中，处理器需要从内存或更高级的缓存中取得指令，这会导致延迟。：如果指令队列（一个存储待执行指令的缓冲区）满了，新的指令无法被取出和解码，直到之前的指令完成。
复制链接

扫一扫