优化C++软件(14)-CSDN博客

11. 乱序执行

所有现代x86 CPU可以乱序执行指令或者同时做多件事，除了某些小的低功耗CPU（Intel Atom）。下面的例子显示了如何利用这个能力：

// Example 11.1a

float a, b, c, d, y;

y = a + b + c + d;

这个表达式被计算为((a+b)+c)+d。这是一个依赖链，其中每个加法必须等待之前一个的结果。你可以通过这样写证明这：

// Example 11.1b

float a, b, c, d, y;

y = (a + b) + (c + d);

现在，两个括号可以独立计算。CPU将在完成(a+b)之前，开始计算(c+d)。这可以节省几时钟周期。你不能假设优化编译器自动将把例子11.1a中的代码改变为11.1b，虽然这看起来显而易见。为什么编译器不能在浮点表达式上进行这种优化的原因是，它可能导致精度损失，如第64页所述。你必须手动设置括号。

长依赖链影响更大。这通常是循环里的情形。考虑下面的例子，它计算100个数的和：

// Example 11.2a

const int size = 100;

float list[size], sum = 0; int i;

for (i = 0; i < size; i++) sum += list[i];

这有一个长依赖链。如果浮点加法需要5时钟周期，这个循环将需要大约500时钟周期。你可以通过展开循环、将依赖链一分为二，提高性能：

// Example 11.2b

const int size = 100;

float list[size], sum1 = 0, sum2 = 0; int i;

for (i = 0; i < size; i += 2) {

sum1 += list[i];

sum2 += list[i+1];}

sum1 += sum2;

如果微处理器从时刻T到T+5进行对sum1的加法，它可以从时刻T+1到T+6进行另一个对sum2的加法，整个循环将仅需256时钟周期。

在循环中的计算，其中每次迭代需要前面的结果，被称为循环携带依赖链。这样的依赖链可以非常长且耗时。如果可以打破这样的依赖链，增益很大。两个总和变量sum1与sum2被称为累加器。当前CPU仅有一个浮点加法单元，但这个单元是流水线化的，如上所述，因此它可以在前面的加法完成周期，开始一个新的加法。

浮点加法与乘法的最优累加器数是3或4，依赖于CPU。

如果迭代数不能被展开因子整除，展开循环变得有点复杂。例如，如果例子11.2b中list元素数是奇数，我们必须在循环外增加最后的元素，或者向list增加一个额外伪元素并将它置零。

如果没有循环携带依赖链，展开循环与使用多个累加器是不必要的。具有乱序能力的微处理器可以重叠迭代，在前面迭代完成之前，开始一个迭代的计算。例子：

// Example 11.3

const int size = 100; int i;

float a[size], b[size], c[size];

float register temp;

for (i = 0; i < size; i++) {

temp = a[i] + b[i];

c[i] = temp * temp;

}

具有乱序能力的微处理器非常聪明。它们可以检测出例子11.3中循环一次迭代中寄存器temp的值与之前迭代的值无关。这允许在完成之前值使用之前，它可以开始计算temp的一个新值。通过对temp分配一个新物理寄存器来实现，即使出现机器代码中的逻辑寄存器是相同的。这称为寄存器重命名。CPU可以保存相同逻辑寄存器的许多重命名实例。

这个优势自动得到。没有理由展开该循环，并拥有temp1与temp2。如果满足特定条件，现代CPU能够进行寄存器重命名，并行执行多个计算。使CPU重叠循环迭代计算成为可能的条件有：

没有循环携带依赖链。一次迭代的计算中不依赖之前迭代的结果（除了循环计数器，如果它是整数，它计算得很快）。
所有中间结果应该保存在寄存器中，而不是内存。重命名机制仅工作在寄存器，但不能在内存或缓存里的变量上。大多数编译器将使例子11.3中的temp成为寄存器变量，即使没有register关键字。CodeGear编译器不能制作浮点寄存器变量，而是将temp保存在内存。这阻止了CPU重叠计算。
循环分支应该被预测。如果重复计数很大或是常量，这不是问题。如果循环计数小且改变，那么CPU偶尔预测循环退出，而实际上没有，因此不能开始下一个计数。不过，乱序机制允许CPU预先递增循环计数器，使得它能不至太迟检测到误预测。因此，你不必太担心这个情形。

一般来说，乱序执行机制自动工作。不过，程序员可以做一些事情来最大程度地利用乱序执行。最重要的是避免长依赖链。另一件你可以做的事情是混合不同类型的操作，以在CPU中不同执行单元间平均分配工作。混合整形与浮点计算是有好处的，只要你不需要在整形与浮点值之间转换。混合浮点加法与浮点乘法，混合简单整形与向量整形操作，以及混合数学计算与内存访问也是有好处的。

非常长的依赖链对CPU的乱序资源施加压力，即使它们不带入循环的下一个迭代。现代CPU通常可以处理超过100个挂起的操作（参考手册3《Intel，AMD与VIA CPU的微架构》）。将一个循环分解并保存中间结果，对打破极长的依赖链是有帮助的。