论文总结
背景:
随着现代服务器上应用程序的增长,对于指令缓存(ICache)的压力也随之增加。ICache不命中会导致高延迟和高能耗,特别是在使用非均匀内存访问(NUMA)架构的数据中心中。
主要贡献:
-
BOLT工具介绍:
BOLT是一个后链接二进制优化工具,可以重新排序代码,从而减少ICache不命中,提高程序性能。 -
性能提升:
通过使用BOLT,Facebook 为其数据中心内的关键应用程序实现了明显的性能提升。 -
如何工作:
- BOLT首先分析程序的执行,收集关于分支和基于性能的信息。
- 接着,它利用这些信息来重新布局二进制文件的函数和基本块,以减少ICache的不命中。
- BOLT还可以调整代码以利用现代硬件上的其他特性。
-
优势:
- 与其他优化技术相比,BOLT具有更好的性能提升,尤其是对于大型、长时间运行的应用程序。
- BOLT不需要源代码进行优化,可以直接在二进制文件上操作。
结论:
BOLT为数据中心提供了一个有效的工具,通过后链接优化提高了应用程序的性能,从而减少了能耗和延迟。
BOLT(Binary Optimization Layout Tool)的工作原理
BOLT(Binary Optimization Layout Tool)的工作原理是重新布局应用程序的二进制代码,从而减少指令缓存(ICache)不命中率。ICache不命中会对性能产生重大影响,特别是对于那些指令密集型的应用程序。BOLT使用的方法基于实际的性能数据来优化二进制代码,与传统的编译时优化相结合可以实现更好的性能。
以下是BOLT的主要工作机制和原理:
-
profile-guided的反馈:
- BOLT首先运行应用程序以收集其执行profile。这通常使用Linux的
perf
工具来完成。 - 通过这种方式,BOLT能够了解哪些代码块和函数被频繁地执行和访问。
- BOLT首先运行应用程序以收集其执行profile。这通常使用Linux的
-
二进制解析和转换:
- BOLT解析输入的二进制文件,创建内部的中间表示。
- 这允许BOLT修改和优化二进制代码,而不必担心具体的汇编语法和细节。
-
代码重新布局:
- 根据前面收集的性能数据,BOLT会重新布局函数和基本块。
- 函数之间的距离基于它们的调用频率进行优化。经常一起执行的函数会被放在一起,从而减少ICache不命中率。
- 在函数内部,BOLT可以重新布局基本块,确保热路径(频繁执行的路径)在ICache中连续。
-
其他优化:
- BOLT还包括其他编译技巧,如循环展开、函数合并和间接调用优化等。
- 它还能够优化动态链接的应用程序,并对其进行调整,以利用现代硬件上的特定特性。
-
输出优化后的二进制:
- 经过所有这些转换和优化后,BOLT会生成一个新的、优化过的二进制文件。
- 这个新的二进制文件可以替代原始文件,通常会有更好的性能表现。
BOLT的关键思想是通过重新布局二进制代码来优化指令缓存的使用。传统的编译器在生成代码时可能不知道程序的实际执行路径。而BOLT通过使用实际的运行时数据来进行优化,因此可以针对实际的工作负载对代码进行调整。
总的来说,BOLT是一个强大的工具,它填补了传统编译器优化和实际运行时行为之间的差距。通过对真实工作负载的深入理解,它可以对二进制代码进行微调,从而实现显著的性能提升。