OpenCL 介绍

最新推荐文章于 2024-06-23 14:25:49 发布

xiaojidan2011

最新推荐文章于 2024-06-23 14:25:49 发布

阅读量2.5k

点赞数 1

分类专栏：科研浏览新鲜事

本文链接：https://blog.csdn.net/xiaojidan2011/article/details/19556685

版权

科研浏览新鲜事专栏收录该内容

10 篇文章 0 订阅

订阅专栏

OpenCL 簡介

OpenCL 是由 Khronos Group 針對異質性計算裝置（heterogeneous device）進行平行化運算所設計的標準 API 以及程式語言。所謂的「異質性計算裝置」，是指在同一個電腦系統中，有兩種以上架構差異很大的計算裝置，例如一般的 CPU 以及顯示晶片，或是像 CELL 的 PPE 以及 SPE。目前，最為常見的就是所謂的 GPGPU 應用，也就是利用一般的顯示晶片（即 GPU）進行 3D 繪圖以外的計算工作。

過去 GPGPU 的應用，有各種不同的使用方式。最早的 GPGPU，多半是直接透過 3D 繪圖的 API 進行，例如 OpenGL 或 D3D 的 HLSL（High Level Shading Language）。但是，這樣做有很多缺點，主要是即使想要進行的運算和 3D 繪圖無關，仍需要處理很多 3D 繪圖方面的動作（例如建立 texture，安排 render-to-texture 動作等等）。這讓 GPGPU 變得十分複雜。後來開始有些嘗試把這些 3D 繪圖部份隱藏起來的想法，例如由 Stanford 大學設計的 BrookGPU，可以透過不同的 backend 將 Brook 程式轉換成由 CPU、Direct3D、或 OpenGL 來執行。另外，也有各家顯示卡廠商自行開發的系統，包括 ATI 針對其產品設計的 Close to Metal（以及後來的 AMD Stream），以及 NVIDIA 的 CUDA。Microsoft 也在 DirectX 11 中加入了特別為 GPGPU 設計的 DirectCompute。

由於各家廠商的 GPGPU 方案都是互不相容的（例如 AMD Stream 的程式無法在 NVIDIA 的顯示晶片上執行，而 CUDA 的程式也不能在 AMD 的顯示晶片上執行），這對 GPGPU 的發展是不利的，因為程式開發者必須為不同廠商的顯示晶片分別撰寫程式，或是選擇只支援某個顯示晶片廠商。由於顯示晶片的發展愈來愈彈性化，GPGPU 的應用範圍也增加，因此 Apple 決定提出一個統一的 GPGPU 方案。這個方案得到包括 AMD、IBM、Intel、NVIDIA 等相關廠商的支持，並很快就交由 Khronos Group 進行標準化。整個計畫只花了五個月的時間，並在 2008 年十二月時正式公開。第一個正式支援 OpenCL 的作業系統是 Apple 的 MacOS X 10.6 "Snow Leopard"。AMD 和 NVIDIA 也隨後推出了在 Windows 及 Linux 上的 OpenCL 實作。IBM 也推出了支援 CELL 的 OpenCL 實作。

OpenCL 的主要設計目的，是要提供一個容易使用、且適用於各種不同裝置的平行化計算平台。因此，它提供了兩種平行化的模式，包括 task parallel 以及 data parallel。目前 GPGPU 的應用，主要是以 data parallel 為主，這裡也是以這個部份為主要重點。所謂的 data parallel，指的是有大量的資料，都進行同樣的處理。這種形式的平行化，在很多工作上都可以見到。例如，影像處理的程式，經常要對一個影像的每個 pixel 進行同樣的動作（例如 Gaussian blur）。因此，這類工作很適合 data parallel 的模式。

OpenCL 的架構

OpenCL 包括一組 API 和一個程式語言。基本上，程式透過 OpenCL API 取得 OpenCL 裝置（例如顯示晶片）的相關資料，並將要在裝置上執行的程式（使用 OpenCL 程式語言撰寫）編繹成適當的格式，在裝置上執行。OpenCL API 也提供許多裝置控制方面的動作，例如在 OpenCL 裝置上取得一塊記憶體、把資料從主記憶體複製到 OpenCL 裝置上（或從 OpenCL 裝置上複製到主記憶體中）、取得裝置動作的資訊（例如上一個程式執行所花費的時間）等等。

例如，我們先考慮一個簡單的工作：把一群數字相加。在一般的 C 程式中，可能是如下：

float a[DATA_SIZE];

float b[DATA_SIZE];

float result[DATA_SIZE];

// ...

for(int i = 0; i < DATA_SIZE; i++) {

result[i] = a[i] + b[i];

}

在 OpenCL 中，則大致的流程是：

把 OpenCL 裝置初始化。
在 OpenCL 裝置上配置三塊記憶體，以存放 a、b、c 三個陣列的資料。
把 a 陣列和 b 陣列的內容，複製到 OpenCL 裝置上。
編譯要執行的 OpenCL 程式（稱為 kernel）。
執行編譯好的 kernel。
把計算結果從 OpenCL 裝置上，複製到 result 陣列中。

透過 data parallel 的模式，這裡的 OpenCL 程式非常簡單，如下所示：

__kernel void adder(__global const float* a, __global const float* b, __global float* result)

{

int idx = get_global_id(0);

result[idx] = a[idx] + b[idx];

}

在一般的版本中，是透過一個迴圈，執行 DATA_SIZE 次數的加法動作。而在 OpenCL 中，則是建立 DATA_SIZE 個 work item，每個 work item 都執行上面所示的 kernel。可以看到，OpenCL 程式語言和一般的 C 語言非常類似。 __kernel 表示這個函式是在 OpenCL 裝置上執行的。 __global 則表示這個指標是在 global memory 中（即 OpenCL 裝置上的主要記憶體）。而 get_global_id(0) 會傳回 work item 的編號，例如，如果有 1024 個 work item，則編號會分別是 0 ~ 1023（實際上編號可以是二維或三維，但在這裡先只考慮一維的情形）。

要如何讓上面這個簡單的 OpenCL kernel 實際在 OpenCL 裝置上執行呢？這就需要透過 OpenCL API 的幫助了。以下會一步一步說明使用 OpenCL API 的方法。

OpenCL 環境設定

在使用 OpenCL API 之前，不免要進行一些環境的設定。相關的動作可以參考下列的文章：

開始撰寫 OpenCL 程式

在使用 OpenCL API 之前，和絕大部份所有其它的 API 一樣，都需要 include 相關的 header 檔案。由於在 MacOS X 10.6 下 OpenCL 的 header 檔案命名方式和在其它作業系統下不同，因此，通常要使用一個 #ifdef 來進行區分。如下所示：

#ifdef __APPLE__

#include <OpenCL/opencl.h>

#else

#include <CL/cl.h>

#endif

這樣就可以在 MacOS X 10.6 下，以及其它的作業系統下，都可以 include 正確的 OpenCL header 檔。

接著，要先取得系統上所有的 OpenCL platform。在 MacOS X 10.6 下，目前只有一個由 Apple 提供的 OpenCL platform，但是在其它系統上，可能會有不同廠商提供的多個不同的 OpenCL platform，因此需要先取得 platform 的數目：

cl_int err;

cl_uint num;

err = clGetPlatformIDs(0, 0, &num);

if(err != CL_SUCCESS) {

std::cerr << "Unable to get platforms\n";

return 0;

}

大部份的 OpenCL API 會傳回錯誤值。如果傳回值是 CL_SUCCESS 則表示執行成功，否則會傳回某個錯誤值，表示失敗的原因。

接著，再取得 platform 的 ID，這在建立 OpenCL context 時會用到：

std::vector<cl_platform_id> platforms(num);

err = clGetPlatformIDs(num, &platforms[0], &num);

if(err != CL_SUCCESS) {

std::cerr << "Unable to get platform ID\n";

return 0;

}

在 OpenCL 中，類似這樣的模式很常出現：先呼叫第一次以取得數目，以便配置足夠的記憶體量。接著，再呼叫第二次，取得實際的資料。

接下來，要建立一個 OpenCL context。如下：

cl_context_properties prop[] = { CL_CONTEXT_PLATFORM, reinterpret_cast<cl_context_properties>(platforms[0]), 0 };

cl_context context = clCreateContextFromType(prop, CL_DEVICE_TYPE_DEFAULT, NULL, NULL, NULL);

if(context == 0) {

std::cerr << "Can't create OpenCL context\n";

return 0;

}

clReleaseContext(context);
return 0;

在上面的程式中， clCreateContextFromType 是一個 OpenCL 的 API，它可以從指定的裝置類別中，建立一個 OpenCL context。第一個參數是指定 context 的 property。在 OpenCL 中，是透過一個 property 的陣列，以「property 種類」及「property 內容」成對出現，並以 0 做為結束。例如，以上面的例子來說，要指定的 property 種類是 CL_CONTEXT_PLATFORM ，即要使用的 platform ID，而 property 內容則是由之前取得的 platform ID 中的第一個（即 platforms[0] ）。由於 property 的內容可能是不同的資料型態，因此需要使用 reinterpret_cast 來進行強制轉型。

第二個參數可以指定要使用的裝置類別。目前可以使用的類別包括：

CL_DEVICE_TYPE_CPU：使用 CPU 裝置
CL_DEVICE_TYPE_GPU：使用顯示晶片裝置
CL_DEVICE_TYPE_ACCELERATOR：特定的 OpenCL 加速裝置，例如 CELL
CL_DEVICE_TYPE_DEFAULT：系統預設的 OpenCL 裝置
CL_DEVICE_TYPE_ALL：所有系統中的 OpenCL 裝置

這裡使用的是 CL_DEVICE_TYPE_DEFAULT，也就是指定使用預設的裝置。另外，在這裡，直接使用了之前取得的 OpenCL platform ID 中的第一個 ID（實際的程式中，可能會需要讓使用者可以指定要使用哪一個 platform）。

如果建立 OpenCL context 失敗，會傳回 0。因此，要進行檢查，並顯示錯誤訊息。如果建立成功的話，在使用完後，要記得將 context 釋放。這可以透過呼叫 clReleaseContext 來達成。

這個程式基本上已經可以編譯執行了，但是當然它並沒有真的做什麼事情。

一個 OpenCL context 中可以包括一個或多個裝置，所以接下來的工作是要取得裝置的列表。要取得任何和 OpenCL context 相關的資料，可以使用 clGetContextInfo 函式。以下是取得裝置列表的方式：

size_t cb;

clGetContextInfo(context, CL_CONTEXT_DEVICES, 0, NULL, &cb);

std::vector<cl_device_id> devices(cb / sizeof(cl_device_id));

clGetContextInfo(context, CL_CONTEXT_DEVICES, cb, &devices[0], 0);

CL_CONTEXT_DEVICES 表示要取得裝置的列表。和前面取得 platform ID 的情形相同， clGetContextInfo 被呼叫了兩次：第一次是要取得需要存放裝置列表所需的記憶體空間大小（也就是傳入 &cb），然後第二次呼叫才真正取得所有裝置的列表。

接下來，可能會想要確定倒底找到的 OpenCL 裝置是什麼。所以，可以透過 OpenCL API 取得裝置的名稱，並將它印出來。取得和裝置相關的資料，是使用 clGetDeviceInfo 函式，和前面的 clGetContextInfo 函式相當類似。以下是取得裝置名稱的方式：

clGetDeviceInfo(devices[0], CL_DEVICE_NAME, 0, NULL, &cb);

std::string devname;

devname.resize(cb);

clGetDeviceInfo(devices[0], CL_DEVICE_NAME, cb, &devname[0], 0);

std::cout << "Device: " << devname.c_str() << "\n";

xiaojidan2011

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
OpenCL 介绍

OpenCL 簡介OpenCL 是由 Khronos Group 針對異質性計算裝置（heterogeneous device）進行平行化運算所設計的標準 API 以及程式語言。所謂的「異質性計算裝置」，是指在同一個電腦系統中，有兩種以上架構差異很大的計算裝置，例如一般的 CPU 以及顯示晶片，或是像 CELL 的 PPE 以及 SPE。目前，最為常見的就是所謂的 GPGPU 應用，也就是
复制链接

扫一扫

专栏目录