这是一段普通按照顺序执行的数组加法代码:
#define n 100
int main ()
{
float a[n] , b[n] , c[n];
int i;
for( i = 0; i < n ; i ++ )
c[i] = a[i] + b[i];
return 0;
}
使用#pragma omp parallel for将其变为并行执行:
#define n 100
int main ()
{
float a[n] , b[n] , c[n];
int i;
#pragma omp parallel for
for( i = 0; i < n ; i ++ )
c[i] = a[i] + b[i];
return 0;
}
注意点:
- #pragma omp parallel for只对其下的第一个for循环起作用。
- 在程序执行到这行代码以后,会以多线程的方式执行for循环内部的内容。在这之前和之后,依然保持单线程执行。
- for循环的迭代次数必须是固定的,不能随着迭代而不断变化。(以便在for循环的开始有效地分配给不同的线程执行)
- for循环的开始点,结束点,和步长必须是固定的,不能随着迭代而不断变化。
- 不能在for循环中使用break或者return等导致循环提前终止的代码。(这样的语句可能导致部分线程提前退出,而其他线程继续执行,从而导致不一致的结果。实际上在并行的for循环中使用break或return连编译都过不了)
- #pragma omp parallel for不适用于while循环。
对于嵌套for循环,#pragma omp parallel for放在内层和外层有什么区别呢?
这是一段普通按照顺序执行的渲染图片颜色的代码:
int i,j;
for (j = 0; j < numPixels_y; j++)
{
for (i = 0; i < numPixels_x; i++)
{
setPixelColour (i, j);
}
}
如果给内层循环加上#pragma omp parallel for
int i,j;
for (j = 0; j < numPixels_y; j++)
{
#pragma omp parallel for
for (i = 0; i < numPixels_x; i++)
{
setPixelColour (i, j);
}
}
那么就是并行执行内循环,每个线程执行setPixelColour (i, j); 这样执行的效率可能还不如直接按顺序执行。因为不断地创建和销毁线程需要额外的开销。
那么把#pragma omp parallel for放在外层循环呢?
int i,j;
#pragma omp parallel for
for (j = 0; j < numPixels_y; j++)
{
for (i = 0; i < numPixels_x; i++)
{
setPixelColour (i, j);
}
}
这样会引起一个问题:
因为每个线程都会执行一次内循环,如果线程A首先执行了内循环,改变了变量 i 的值(假如最终值2),那么线程B在开始执行内循环时,i的初始值为为2,它就会直接跳过几个像素块,造成问题。
所以,我们需要设法让变量 i 对每个线程私有。
改法1:
int j;
#pragma omp parallel for
for (j = 0; j < numPixels_y; j++)
{
int i;
for (i = 0; i < numPixels_x; i++)
{
setPixelColour (i, j);
}
}
改法2:
#pragma omp parallel for
for (int j = 0; j < numPixels_y; j++)
{
for (int i = 0; i < numPixels_x; i++)
{
setPixelColour (i, j);
}
}
改法3:
int i,j;
#pragma omp parallel for private(i)
for (j = 0; j < numPixels_y; j++)
{
for (i = 0; i < numPixels_x; i++)
{
setPixelColour (i, j);
}
}