在JE上看到了一个帖子讨论下面这种代码的优化问题的:
- int main(int argc, char *argv[])
- {
- int i;
- for (i = 0; i < 20000; i++) {
- int j;
- for (j = 0; j < 2000; j++) {
- int k;
- for (k = 0; k < 200; k++);
- }
- }
- return 0;
- }
int main(int argc, char *argv[]) { int i; for (i = 0; i < 20000; i++) { int j; for (j = 0; j < 2000; j++) { int k; for (k = 0; k < 200; k++); } } return 0; }
显然是在考查要把循环次数少的放在外层,理由是这样可以减少变量实例话的次数。原理如此,我只是想更加清楚地知道这样做有多大的作用,于是我用gcc的profile工具测试了一下。
把上面的代码用 gcc -pg 编译,profile结果显示整个程序用时32.68秒,多次运行有不到0.1秒的浮动误差。
如果改成
- int main(int argc, char *argv[])
- {
- int i;
- for (i = 0; i < 200; i++) {
- int j;
- for (j = 0; j < 2000; j++) {
- int k;
- for (k = 0; k < 20000; k++);
- }
- }
- return 0;
- }
int main(int argc, char *argv[]) { int i; for (i = 0; i < 200; i++) { int j; for (j = 0; j < 2000; j++) { int k; for (k = 0; k < 20000; k++); } } return 0; }
用时32.20秒,效率大约提升了1.5%。
以上并没有使用编译器自身的优化选项。下面来看看如果使用了 gcc -O3 (第三级优化)编译会有什么样的结果。
结果表明有很大的改观:前者用时5.07秒,后者用时4.54秒。
如果启用了 -O9 最高级别的优化,后者用时4.60秒,前者用时5.12秒,可见 -O9 并不比 -O3 强。
别忘了这里面的循环要执行 200*2000*20000 = 8000000000,80亿次!即使不用编译器优化,那种被认为是“低效率”的代码也可以32秒多执行完,而那种“高效率”的代码不过把时间减少了1.5%。在实际情况下,调整内外循环顺序可能会严重降低代码的可读性。
而只是简单地加了一个编译器优化,立刻就能把速度提高5倍多。人脑终归不能像编译器一样理解代码。