编译器优化–5--消除冗余

最新推荐文章于 2024-11-26 16:01:22 发布

ronnie88597

最新推荐文章于 2024-11-26 16:01:22 发布

阅读量1.7k

点赞数 2

分类专栏：编译器技术文章标签：算法编译器

本文链接：https://blog.csdn.net/weixin_46222091/article/details/104740897

版权

编译器技术专栏收录该内容

17 篇文章

订阅专栏

编译器优化–5--消除冗余

关于消除冗余，我们着这里只讨论在局部范围内（单个程序块）上的消除冗余。做这种优化一般常用两种方法：值编号（value numbering），树高平衡（tree-height balancing）。我这这里详细讨论关于值编号（value numbering）的技术细节。

局部值编号（Local Value Numbering，LVN）

定义：对于基本程序块B中的一个表达式，当且仅当它在B中此前已经计算过，且在此之间并无其他运算重新定义组成表达式的各个参数值时，则称该表达式是冗余的。

例子1

基本程序块如下：
$\begin{aligned}a &\leftarrow b + c\\b &\leftarrow a - d\\c &\leftarrow b + c\\d &\leftarrow a - d\\\end{aligned}$
在上面例子中第3个运算中出现 $b + c$ 不是冗余的，因为第2个运算重新定义了b。第4个运算中出现的 $a - d$ 是冗余的，因为在第2个和第4个运算之间没有重新定义表达式中的参数a或d。

编译器在优化时会重写该基本程序块，使得只对 $a - d$ 仅运算一次。如下图所示
$\begin{aligned}a &\leftarrow b + c\\b &\leftarrow a - d\\c &\leftarrow b + c\\d &\leftarrow b\\\end{aligned}$

例子2

前一个例子中，冗余表达式的文本与先前计算过的表达式是相同的。另外还有其他情况，比如：假设已经分析出 $d$ 右侧的表达式是冗余的，可以使用 $b$ 的值直接替换它，使得 $\leftarrow b$ 。整个基本程序块如下所示：
$\begin{aligned}a &\leftarrow b + c\\b &\leftarrow a - d\\c &\leftarrow b + c\\d &\leftarrow b\\e &\leftarrow d + c\\\end{aligned}$
对于上面程序块B中的第3条语句和第5条语句中 $b + c$ 和 $d + c$ 表达式的值是相同的。为了识别这种情形，编译器必须跟踪值通过名字发生的流动。这种情况，如果仅依赖基于比较文本是否相同的技术是无法检测出来的。

算法

程序员可能会说，如上面两个例子，他们是不会编写出包含这种冗余表达式的代码。实际上，从源码到IR的转换会细化许多细节（如地址计算）并引入冗余表达式，冗余消除是可以找到许多优化时机的。

人们已经开发出了许多用于发现并消除冗余的技术。局部值编号（Local Value Numbering）是这些变换中最古老也最强大的技术之一。它可以发现基本程序块内部的冗余，并重写该程序块避免冗余。它为其他局部优化（如常量合并和使用代数恒等式进行简化）提供了一套简单且高效的框架。

值编号背后的思想很简单。算法遍历基本程序块，并为程序块计算的每个值分配一个不同的编号。该算法会为值选择编号，使得给定两个表达式 $e_i$ 和 $e_j$ ，当且仅当对表达式的所有可能的运算对象，都可以验证 $e_i$ 和 $e_j$ 具有相等的值时，两者具有相同的值编号。

下面给出了基本的LVN算法的伪代码。

for i in range(0, n-1), where the block has n operations "Ti = li Opi Ri"
    1. get the value numbers for Li and Ri
    2. construct a hash key from Opi and the value numbers for Li and Ri
    3. if the hash key is already present in the table then
           replace operation i with a copy of the value into Ti and associate the value number with Ti
       else
           insert a new value number into the table at the hash key location record that new value number for Ti

LVN的输入是一个具有n个二元运算的基本程序块，每个运算符形如 $T_i = L_i\ Op_i\ R_i$ 。LVN算法会按照顺序考擦每个运算。它使用一个散列表来将名字、常数和表达式映射到不同的值编号。该散列表最初是空的。

为处理第 $i$ 个运算，LVN在散列表中查找 $L_i$ 和 $R_i$ ，获取与二者对应的值编号。如果算法找到对应的项，LVN将使用该项包含的值编号；否则，算法将创建一个表项并分配一个新的值编号。

给出 $L_i$ 和 $R_i$ 的值编号，分别记作 $VN(L_i)$ 和 $VN(R_i)$ ，LVN算法会基于 $VN(L_i), Op_i, VN(R_i))$ 构造一个散列表的键，并在表中查找该键。如果存在对应的表项，那么该表达式是冗余的，可以将其替换为对此前计算值的引用；否则，运算 $i$ 是该程序块中对此表达式的第一次计算，随后LVN会对应的散列键创建一个散列表项，并为该表项分配一个新的值编号。算法还将散列键的值编号（新的或现存的）分配给对应的 $T_i$ 的表项。因为LVN使用值编号而非名字来构造表达式的散列键，它实际上可以通过复制和赋值操作来跟踪值的流动，它可以解决如前面第2个例子的情形。将LVN扩展到任意元表达式是很简单的。