【2024第一期CANN训练营】3、AscendCL运行时管理

本文详细介绍了如何使用昇腾社区的AscendCL进行运行时管理,包括初始化与去初始化、资源申请与释放、数据传输(Host-Host,Host-Device,Device-Host,Device-Device)、Stream管理(单线程、多线程)以及多Device切换和同步等待的流程和示例代码。
摘要由CSDN通过智能技术生成

【2024第一期CANN训练营】3、AscendCL运行时管理

本教程将介绍如何使用昇腾社区AscendCL应用开发接口进行运行时管理。并从AscendCL的初始化与去初始化、运行管理资源的申请与释放、数据传输、Stream管理、多Device切换以及同步等待等关键步骤来展开内容

以下教程涉及的所有代码都可以从样例介绍中获得

1. 初始化与去初始化

在使用AscendCL进行开发前,首先需要初始化AscendCL环境。这可以通过调用aclInit接口来完成。如果默认配置已满足需求,可以直接传入NULL。

aclError ret = aclInit(NULL);

完成所有AscendCL调用后,需要调用aclFinalize接口去初始化AscendCL。

ret = aclFinalize();

2. 资源申请与释放

运行管理资源包括Device、Context和Stream。申请和释放这些资源的顺序很重要。

2.1 申请流程

  1. 使用aclrtSetDevice显式指定运算的Device。
  2. 通过aclrtCreateContext创建Context。
  3. 使用aclrtCreateStream创建Stream。

示例代码:

// 初始化变量
int32_t deviceId=0 ;
aclrtContext context;
aclrtStream stream;

aclError ret = aclrtSetDevice(deviceId);
ret = aclrtCreateContext(&context, deviceId);
ret = aclrtCreateStream(&stream);

2.2 释放流程

  1. 使用aclrtDestroyStream销毁Stream。
  2. 通过aclrtDestroyContext销毁Context。
  3. 调用aclrtResetDevice重置Device。

示例代码:

ret = aclrtDestroyStream(stream);
ret = aclrtDestroyContext(context);
ret = aclrtResetDevice(deviceId);

2.3 运行模式(可选)

获取当前昇腾AI软件栈的运行模式,根据不同的运行模式,后续的接口调用方式不同

  • 如果查询结果为ACL_HOST,则数据传输时涉及申请Host上的内存。
  • 如果查询结果为ACL_DEVICE,则数据传输时仅需申请Device上的内存。
aclrtRunMode runMode;
extern bool g_isDevice;

ret = aclrtGetRunMode(&runMode);
g_isDevice = (runMode == ACL_DEVICE);

3. 数据传输

数据传输包含申请内存,将数据读入内存,内存复制三个环节

3.1 接口调用流程

  1. 申请内存
    • 在Host上申请内存可以使用C++标准库中的newmalloc,或者使用AscendCL提供的aclrtMallocHost接口。
    • 在Device上申请内存则需要使用aclrtMalloc接口。
  2. 将数据读入内存:用户需要自行管理数据读入内存的实现逻辑。
  3. 内存复制:通过内存复制实现数据传输,可以选择同步或异步内存复制。
    • 同步内存复制使用aclrtMemcpy接口
    • 异步内存复制使用aclrtMemcpyAsync接口,并配合aclrtSynchronizeStream接口实现同步等待。

3.2 主要数据传输场景

1. Host内的数据传输

当前仅支持调用aclrtMemcpy接口执行同步Host内的内存复制任务,不支持调用aclrtMemcpyAsync接口执行异步Host内的内存复制功能

// 申请内存
uint64_t size = 1 * 1024 * 1024;
void* hostPtrA = NULL;
void* hostPtrB = NULL;
aclrtMallocHost(&hostPtrA, size);
aclrtMallocHost(&hostPtrB, size);

// 向内存中读入数据
ReadFile(fileName, hostPtrA, size);

// 同步内存复制
aclrtMemcpy(hostPtrB, size, hostPtrA, size, ACL_MEMCPY_HOST_TO_HOST);

// 释放资源
aclrtFreeHost(hostPtrA);
aclrtFreeHost(hostPtrB);
2. 从Host到Device的数据传输

既支持同步内存复制,又支持异步内存复制

  • 同步内存复制
// 申请内存
uint64_t size = 1 * 1024 * 1024;
void* hostPtrA = NULL;
void* devPtrB = NULL;
aclrtMallocHost(&hostPtrA, size);
aclrtMalloc(&devPtrB, size, ACL_MEM_MALLOC_NORMAL_ONLY);

// 向内存中读入数据
ReadFile(fileName, hostPtrA, size);

// 同步内存复制
aclrtMemcpy(devPtrB, size, hostPtrA, size, ACL_MEMCPY_HOST_TO_DEVICE);

// 释放资源
aclrtFreeHost(hostPtrA);
aclrtFree(devPtrB);
  • 异步内存复制
// 申请内存
uint64_t size = 1 * 1024 * 1024;
void* hostAddr = NULL;
void* devAddr = NULL;
aclrtMallocHost(&hostAddr, size + 64);
aclrtMalloc(&devAddr, size, ACL_MEM_MALLOC_NORMAL_ONLY);
aclrtStream stream = NULL;
aclrtCreateStream(&stream);

// 获取到64字节对齐的地址
char *hostAlignAddr =(char *)hostAddr + 64 - ((uintptr_t)hostAddr % 64);

// 向内存中读入数据
ReadFile(fileName, hostAlignAddr, size);

// 异步内存复制
aclrtMemcpyAsync(devAddr, size, hostAlignAddr, size, ACL_MEMCPY_HOST_TO_DEVICE, stream);
aclrtSynchronizeStream(stream);

// 释放资源
aclrtDestroyStream(stream);
aclrtFreeHost(hostAddr);
aclrtFree(devAddr);
3. 从Device到Host的数据传输

既支持同步内存复制,又支持异步内存复制

  • 同步内存复制
// 申请内存
uint64_t size = 1 * 1024 * 1024;
void* devPtrA = NULL;
void* hostPtrB = NULL;
aclrtMalloc(&devPtrA, size, ACL_MEM_MALLOC_NORMAL_ONLY);
aclrtMallocHost(&hostPtrB, size);

// 向内存中读入数据
ReadFile(fileName, devPtrA, size);

// 同步内存复制
aclrtMemcpy(hostPtrB, size, devPtrA, size, ACL_MEMCPY_DEVICE_TO_HOST);

// 释放资源
aclrtFree(devPtrA);
aclrtFreeHost(hostPtrB);
  • 异步内存复制
// 申请内存
uint64_t size = 1 * 1024 * 1024;
void* hostAddr = NULL;
void* devAddr = NULL;
aclrtMallocHost(&hostAddr, size + 64);
aclrtMalloc(&devAddr, size, ACL_MEM_MALLOC_NORMAL_ONLY);
aclrtStream stream = NULL;
aclrtCreateStream(&stream);

// 向内存中读入数据
ReadFile(fileName, devAddr, size);

// 获取到64字节对齐的地址
char *hostAlignAddr =(char *)hostAddr + 64 - ((uintptr_t)hostAddr % 64);

// 异步内存复制
aclrtMemcpyAsync(hostAlignAddr, size, devAddr, size, ACL_MEMCPY_DEVICE_TO_HOST, stream);
aclrtSynchronizeStream(stream);

// 释放资源
aclrtDestroyStream(stream);
aclrtFreeHost(hostAddr);
aclrtFree(devAddr);
4. 一个Device内的数据传输
// 申请内存
uint64_t size = 1 * 1024 * 1024;
void* devPtrA = NULL;
void* devPtrB = NULL;
aclrtMalloc(&devPtrA, size, ACL_MEM_MALLOC_NORMAL_ONLY);
aclrtMalloc(&devPtrB, size, ACL_MEM_MALLOC_NORMAL_ONLY);

// 向内存中读入数据
ReadFile(fileName, devPtrA, size);

// 同步内存复制
aclrtMemcpy(devPtrB, size, devPtrA, size, ACL_MEMCPY_DEVICE_TO_DEVICE);

// 异步内存复制
aclrtStream stream;
aclrtCreateStream(&stream);
aclrtMemcpyAsync(devPtrB, size, devPtrA, size, ACL_MEMCPY_DEVICE_TO_DEVICE, stream);
aclrtSynchronizeStream(stream);

// 释放资源
aclrtFree(devPtrA);
aclrtFree(devPtrB);
5. 两个Device间的数据传输
  • Atlas 200/300/500 推理产品上,不支持该功能。
  • Atlas 200/500 A2推理产品,不支持该功能。
// AscendCL初始化
auto ret = aclInit(NULL);

// 查询Device 0和Device 1之间是否支持内存复制
int32_t canAccessPeer = 0;
ret = aclrtDeviceCanAccessPeer(&canAccessPeer, 0, 1);

// 1表示支持内存复制
if (canAccessPeer == 1) {
    // Device 0下的操作,包括内存申请、数据写入、内存复制等
	ret = aclrtSetDevice(0);		
	void *dev0;
	ret = aclrtMalloc(&dev0, 10, ACL_MEM_MALLOC_HUGE_FIRST_P2P);
	ret = aclrtMemset(dev0, 10, 1, 10);
    
	// Device 1下的操作
	ret = aclrtSetDevice(1);
	ret = aclrtDeviceEnablePeerAccess(0, 0);
	void *dev1;
	ret = aclrtMalloc(&dev1, 10, ACL_MEM_MALLOC_HUGE_FIRST_P2P);
	ret = aclrtMemset(dev1, 10, 0, 10);

    // 执行复制,将Device 0上的内存数据复制到Device 1上
    ret = aclrtMemcpy(dev1, 10, dev0, 10, ACL_MEMCPY_DEVICE_TO_DEVICE);
	ret = aclrtResetDevice(1);
    ret = aclrtSetDevice(0);
	ret = aclrtResetDevice(0);
	printf("P2P copy success\n");
} else {
    printf("current device doesn't support p2p feature\n");
}

// AscendCL去初始化
aclFinalize();

注意事项

  • 在进行数据传输时,需要确保内存申请和释放的正确性,避免内存泄漏。
  • 异步内存复制时,需要确保内存地址的64字节对齐。
  • 在使用AscendCL进行数据传输时,应该增加异常处理逻辑,以便于及时发现并解决问题。

4. Stream管理

在AscendCL应用开发中,Stream是任务队列的抽象,用于管理任务的并行执行。理解并有效管理Stream对于提升程序性能和资源利用率至关重要。AscendCL提供了以下几种Stream管理机制:

4.1 单线程单Stream

在单线程环境下,可以创建一个Stream来管理任务的执行。

#include "acl/acl.h"

// 显式创建一个Stream
aclrtStream stream;
aclrtCreateStream(&stream);

// 调用触发任务的接口,传入stream参数
aclrtMemcpyAsync(dstPtr, dstSize, srcPtr, srcSize, ACL_MEMCPY_HOST_TO_DEVICE, stream);

// 调用aclrtSynchronizeStream接口,阻塞应用程序运行,直到指定Stream中的所有任务都完成。
aclrtSynchronizeStream(stream);

// Stream使用结束后,显式销毁Stream
aclrtDestroyStream(stream);

4.2 单线程多Stream

在单线程环境下,可以创建多个Stream来并行执行不同的任务。

#include "acl/acl.h"
int32_t deviceId = 0;
uint32_t modelId1 = 0;
uint32_t modelId2 = 1;

// 显式创建一个Stream
aclrtContext context;
aclrtStream stream1, stream2;

// 创建Context
aclrtCreateContext(&context, deviceId);

// 创建stream1
aclrtCreateStream(&stream1);
// 调用触发任务的接口,例如异步模型推理,任务下发在stream1
aclmdlDataset *input1, *output1;
aclmdlExecuteAsync(modelId1, input1, output1, stream1);

// 创建stream2
aclrtCreateStream(&stream2);
// 调用触发任务的接口,例如异步模型推理,任务下发在stream2
aclmdlDataset *input2, *output2;
aclmdlExecuteAsync(modelId2, input2, output2, stream2);

// 流同步
aclrtSynchronizeStream(stream1);
aclrtSynchronizeStream(stream2);

// 释放资源
aclrtDestroyStream(stream1);
aclrtDestroyStream(stream2);
aclrtDestroyContext(context);

4.3 多线程多Stream

在多线程环境下,每个线程可以创建自己的Stream来执行任务。

#include "acl/acl.h"

void runThread(aclrtStream stream) {
    int32_t deviceId = 0;
    aclrtContext context;

    // 创建Context
    aclrtCreateContext(&context, deviceId);

    // 显式创建一个Stream
    aclrtStream threadStream;
    aclrtCreateStream(&threadStream);

    // 释放资源
    aclrtDestroyStream(threadStream);
    aclrtDestroyContext(context);
}

// 创建2个线程,每个线程对应一个Stream
aclrtStream stream1, stream2;
std::thread t1(runThread, stream1);
std::thread t2(runThread, stream2);

// 显式调用join函数确保结束线程
t1.join();
t2.join();

注意事项

  • 在创建Stream之前,确保已经创建了Context。
  • 在多Stream场景下,注意使用aclrtSynchronizeStream接口来同步任务的执行。
  • 在多线程环境下,确保每个线程正确地创建和销毁自己的Stream和Context。
  • 在程序结束前,确保释放所有Stream和Context资源,避免内存泄漏。

5. 多Device切换

在AscendCL应用开发中,多Device切换是一个重要的特性,它允许开发者在多个昇腾AI处理器(Device)之间高效地切换和管理任务。

下图为:同步等待流程_多Device场景

img

5.1 多Device切换关键接口

  1. aclrtSetCurrentContext:用于切换当前线程的Context,比使用aclrtSetDevice接口效率更高。

  2. aclrtSynchronizeDevice:用于等待特定Device上的所有计算任务结束。

5.2 多Device切换流程

  1. 初始化AscendCL:在使用AscendCL进行任何操作之前,需要先初始化AscendCL。

    aclError ret = aclInit(NULL);
    if (ret != ACL_ERROR_NONE) {
        // 错误处理
    }
    
  2. 创建Context:在多Device环境中,每个Device都有一个Context。需要为每个Device创建一个Context。

    aclrtContext context[DEVICE_NUM];
    for (int i = 0; i < DEVICE_NUM; ++i) {
        ret = aclrtCreateContext(&context[i], i);
        if (ret != ACL_ERROR_NONE) {
            // 错误处理
        }
    }
    
  3. 切换Context和Device:在执行任务时,使用aclrtSetCurrentContext接口切换到相应的Context,从而在对应的Device上执行任务。

    // 假设我们要在Device 1上执行任务
    aclrtSetCurrentContext(context[1]);
    // 执行任务...
    
  4. 等待Device任务完成:在需要等待特定Device上的任务完成时,使用aclrtSynchronizeDevice接口。

    // 等待Device 2上的任务完成
    aclrtSynchronizeDevice(2);
    
  5. 执行任务:在每个Device上执行相应的任务,如模型推理或算子执行。

    // 模型推理示例
    aclmdlExecuteAsync(modelId, input, output, stream);
    
  6. 释放资源:在任务完成后,释放Context和销毁所有资源。

    for (int i = 0; i < DEVICE_NUM; ++i) {
        aclrtDestroyContext(context[i]);
    }
    aclFinalize();
    

注意事项

  • 在多Device环境中,确保为每个Device创建了对应的Context。
  • 使用aclrtSetCurrentContext接口切换Context时,确保当前线程没有其他Device的任务在执行。
  • 在等待Device任务完成时,确保没有其他任务依赖于这些任务的结果,否则可能会导致死锁。
  • 在程序结束前,确保释放所有Context资源,并调用aclFinalize进行AscendCL的清理。

6. 同步等待

在AscendCL应用开发中,同步等待是一个关键的概念,它确保了在异步计算场景下任务的正确执行顺序和资源的正确管理

AscendCL提供了以下同步机制:

  1. Event的同步等待:使用aclrtSynchronizeEvent接口,阻塞应用程序运行,等待Event完成。
  2. Stream内任务的同步等待:使用aclrtSynchronizeStream接口,阻塞应用程序运行,直到指定Stream中的所有任务都完成。
  3. Stream间任务的同步等待:使用aclrtStreamWaitEvent接口,阻塞指定Stream的运行,直到指定的Event完成。
  4. Device的同步等待:使用aclrtSynchronizeDevice接口,阻塞应用程序运行,直到正在运算中的Device完成运算。

6.1 Event的同步等待

#include "acl/acl.h"

// 创建一个Event
aclrtEvent event;
aclrtCreateEvent(&event);

// 显式创建一个Stream
aclrtStream stream;
aclrtCreateStream(&stream);

// 在stream末尾添加了一个event
aclrtRecordEvent(event, stream);

// 阻塞应用程序运行,等待event发生,也就是stream执行完成
aclrtSynchronizeEvent(event);

// 显式销毁资源
aclrtDestroyStream(stream);
aclrtDestroyEvent(event);

6.2 Stream内任务的同步等待

#include "acl/acl.h"

// 显式创建一个Stream
aclrtStream stream;
aclrtCreateStream(&stream);

// 调用触发任务的接口,传入stream参数
aclrtMemcpyAsync(dstPtr, dstSize, srcPtr, srcSize, ACL_MEMCPY_HOST_TO_DEVICE, stream);

// 调用aclrtSynchronizeStream接口,阻塞应用程序运行,直到指定Stream中的所有任务都完成
aclrtSynchronizeStream(stream);

// Stream使用结束后,显式销毁Stream
aclrtDestroyStream(stream);

6.3 Stream间任务的同步等待

#include "acl/acl.h"

// 创建一个Event
aclrtEvent event;
aclrtCreateEvent(&event);

// 创建stream1
aclrtStream s1;
aclrtCreateStream(&s1);

// 创建stream2
aclrtStream s2;
aclrtCreateStream(&s2);

// 在s1末尾添加了一个event
aclrtRecordEvent(event, s1);

// 阻塞s2运行,直到指定event发生,也就是s1执行完成
aclrtStreamWaitEvent(s2, event);

// 显式销毁资源
aclrtDestroyStream(s2);
aclrtDestroyStream(s1);
aclrtDestroyEvent(event);

6.4 Device的同步等待

#include "acl/acl.h"

// 指定device
aclrtSetDevice(0);

// 创建context
aclrtContext ctx;
aclrtCreateContext(&ctx, 0);

// 创建stream
aclrtStream stream;
aclrtCreateStream(&stream);

// 阻塞应用程序运行,直到正在运算中的Device完成运算
aclrtSynchronizeDevice();

// 资源销毁
aclrtDestroyStream(stream);
aclrtDestroyContext(ctx);
aclrtResetDevice(0);

注意事项

  • 在使用同步等待机制时,确保正确地创建和销毁Event和Stream资源。
  • 在多Stream环境中,使用Event和aclrtStreamWaitEvent接口来实现Stream间的同步等待。
  • 在多Device环境中,使用aclrtSynchronizeDevice接口来等待特定Device上的任务完成。
  • 在程序结束前,确保释放所有资源,避免内存泄漏。。
  • 19
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 商环境:东南亚商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终端)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终端设备、电子元器件、射频前端、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动化、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

绿洲213

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值