OpenMP学习笔记

最新推荐文章于 2024-07-25 11:07:00 发布

SciPioneer

最新推荐文章于 2024-07-25 11:07:00 发布

阅读量4.1k

点赞数 2

分类专栏： High Performance Computing 文章标签： OpenMP 笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whuwangyi/article/details/14106695

版权

本文档详细介绍了OpenMP的学习笔记，包括多线程编程、同步、并行循环、数据环境和调度等内容。讲解了如何使用#pragma omp指令进行并行化，如parallel, critical, atomic, for, reduction等，并强调了消除循环依赖和正确处理数据共享的重要性。" 93318720,5652391,LinkedHashMap转换为自定义对象的解决办法,"['Java', '微服务', '数据转换', 'JSON', '对象映射']

摘要由CSDN通过智能技术生成

编译命令：gcc –O XXX.c -fopenmp

1． Multi-thread Programming

1. 首先要import相应的API，因此必须在首行写上#include “omp.h”。

2. 对于要并行执行的部分，用#pragma omp parallel{…} 标记并行块范围。

3. 在并行块里面，用int ID = omp_get_thread_num(); 来获取并行线程的ID。注意：Master thread的ID为0。

4. 设定并行线程的数目的方式有两种：1. 如果要设定并行线程的数目在并行块外，调用omp_set_num_threads(intnum)函数。2.也可以在声明并行块的时候同时声明设定并行线程的数目，即使用#pragma omp parallelnum_threads(int num){}代替#pragma omp parallel{ }。如果不设定并行线程的数目，则并行线程数目的缺省值为CUP的核数。

5. 在并行块内，一般会使用int nthrds = omp_get_num_threads()来获得并行线程的总数，这样方便在遍历的时候设立stride。

2． Synchronization

2.1 critical

在并行块中的关键区域上锁，实行局部的串行操作。

#pragma omp critical{ …}

2.2 atomic

作用同critical，但是仅对某个内存区域的读写操作有效(e.g.如果要调用某个函数，可能就会失效)，速度比critical更快。

#pragma omp atomic{ …}

3． Parallel Loops

3.1自动并行执行for循环(循环子默认为private)

#pragma omp for{ …}

e.g.

#pragma omp parallel for

for(i = 0; i<N;i++)

a[i] = a[i] + b[i];

等效于

#pragma omp parallel

{

intid, i, Nthrds, istart, iend;

id= omp_get_thread_num();

Nthrds= omp_get_num_threads();

istart= id * N / Nthrds;

iend= (id + 1)* N / Nthrds;

for(i=istart;i<iend; i++){

a[i] = a[i] + b[i];

}

}

本质上就是把循环子i的遍历空间进行划分，让每个线程包办一部分的iterations，iteration次数尽量做到平均。前提是不存在依赖！

注：如果标记块中仅含有一个statement，则#pragma ompfor后的大括号可以去掉。如果整个并行块里面只有一个for循环，则可以将声明并行块的#pragma omp parallel{ …}与并行块里面的#pragma omp for{…}简写成#pragma omp parrellel for{ …}

此外，用并行for循环优化时，注意要去掉loop carried dependence，e.g.

int i, j, A[MAX];

j = 5;

for(i=0;i<MAX;i++){

j +=2;

A[j] = big(j);

}

改为

int i, j, A[MAX];

#pragma omp parallel for{

for(i=0;i<MAX;i++){

int j = 5 + 2i;

A[j] = big(j);

}

实质是将并行块外定义的用j的递推公式表示的线程共享变量，替换为并行块内定义的用i的通项公式表示的线程私有变量。

3.2自动并行执行reduction

reduction (op:list)

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。