OpenCL并行加减乘除示例——数据并行与任务并行
==============================================================
目录结构
1、数据并行
2、任务并行
3、参考
==============================================================
关键词:OpenCL; data parallel; task parallel
数据并行化计算与任务并行化分解可以加快程序的运行速度。
如下基本算术例子,输入数组A和数组B,得到输出数组C,C的结果如图中output所示。
图1、加减乘除例子
我们可以通过以下代码计算结果,这块代码我们暂且称为功能函数:
float C[16];
int i;
for(i=0; i<4; i++)
{
C[i*4+0] = A[i*4+0] + B[i*4+0]; //task A
C[i*4+1] = A[i*4+1] - B[i*4+1];//task B
C[i*4+2] = A[i*4+2] * B[i*4+2];//task C
C[i*4+3] = A[i*4+3] / B[i*4+3];// task D
}
1、数据并行(data parallel)
可以发现每一个for循环都由加减乘除4个任务组成,分别为task A、task B、task C和task D。按时间顺序从0时刻开始执行i=0到i=3的4个计算单元,运行完成时间假设为T。
图2. 顺序执行图
从图2我们也可以看出,对于每个程序块,A,B的数据来源都不同,图中的颜色对应task的颜色,由于数据之间并没有依赖关系,所以在程序设计时可以使i=0,1,2,3四个程序块一起运行,将不同的数据给相同的处理函数同时运行,理想化得使运行时间缩减到T/4,如图3所示。这种办法对不同的数据使用相同的核函数,称为数据并行。
图3. 数据并行方法图
数据化并行使用的OpenCL的API函数是:clEnqueueNDRangeKernel()
以下是参考程序:
host.cpp:
#include "stdafx.h"
#include <stdio.h>
#include <stdlib.h>
#include <string>
#include <CL/cl.h>
#include <time.h>
#define MAX_SOURCE_SIZE (0x100000)
//data parallel
int main()
{
cl_platform_id platform_id = NULL;
cl_device_id device_id = NULL;
cl_context context = NULL;
cl_command_queue comman