CUDA——性能优化之循环展开

最新推荐文章于 2025-03-10 16:40:30 发布

Tonson＿

最新推荐文章于 2025-03-10 16:40:30 发布

阅读量7.1k

点赞数 5

分类专栏： CUDA学习笔记文章标签： cuda

本文链接：https://blog.csdn.net/weixin_44444450/article/details/104469278

版权

CUDA学习笔记专栏收录该内容

19 篇文章

订阅专栏

本文深入探讨了循环展开技术，一种广泛应用于CPU和GPU上的优化手段，通过减少分支冲突提升程序性能。文章详细解释了循环展开原理，展示了其实现方式，并讨论了在GPU编程中如何利用#pragma unroll指令控制循环展开，同时提醒开发者注意寄存器资源的合理利用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

循环展开（#pragma unroll）

1）什么是循环展开？

循环展开顾名思义就是将循环体展开，全部展开或者展开一部分都可以有效提高性能。

循环展开无论是在CPU还是GPU上，都可以有效的提高应用程序运行速度。

以下是一个循环体

float sum=0;
for(int i=0;i<n;++i)
{
	sum+=a[i];
}

循环部分展开

for(int i=0;i<n;i+=2)
{
	sum+=a[i]+a[i+1];
}

2）为什么要循环展开

我们知道执行核函数时，通常以warp为单位去执行指令的。当warp去执行循环时（线程ID去做for的判断条件或者 for里有线程ID的if条件），会产生分支冲突，增加指令数。
所以循环展开可以有效避免分支冲突，提高性能。

3）循环展开在GPU中的应用

编译器会默认展开带有循环计数的小循环（比如上述例子中的N是常数的话）。而#pragma unroll 指令则可用于控制任何给定循环的展开。它必须放置在循环前，并只应用于此循环。它后面可以跟一个数字，用于指定循环必须展开多少次。

下列代码示例中循环将展开5次

#pragma unroll 5
for(int i=0;i<n;++i)

此时，要确保n>=5，不然会影响程序运算结果。

注意（当循环展开之后需要用到寄存器时）：

循环展开会使用更多的寄存器，编译器在编译的过程中会将确定的量优先存储在寄存器中，这就导致有些变量会被存储到局部内存。（循环展开会消耗更多的寄存器，而不展开是不会的）。SM里的寄存器大小是有限的，SM会根据一个块需要消耗的寄存器大小和线程的个数去分配该SM上块的个数，当一个SM连一个块都分配不了时，就会导致内核启动不了。

此时的解决办法就只有 减少线程的数量去换取更多的寄存器。
所以循环的展开应该在寄存器适用的范围去展开，不能过度展开。如何保证不过度展开？就是权衡寄存器大小和线程数量之间的关系。