【2024第一期CANN训练营】4、AscendCL推理应用开发

最新推荐文章于 2024-08-23 19:19:37 发布

绿洲213

最新推荐文章于 2024-08-23 19:19:37 发布

阅读量1.2k

点赞数 24

分类专栏： 2024·CANN训练营第一季文章标签： CANN AscendCL AI

本文链接：https://blog.csdn.net/weixin_46227276/article/details/136784466

版权

2024·CANN训练营第一季专栏收录该内容

6 篇文章 1 订阅

订阅专栏

文章目录

【2024第一期CANN训练营】4、AscendCL推理应用开发

【2024第一期CANN训练营】4、AscendCL推理应用开发

本教程将介绍如何使用AscendCL接口开发一个基于昇腾AI处理器的基础推理应用。昇腾社区提供了全栈AI计算基础设施，包括硬件、软件架构、计算框架等，为AI应用开发提供强大支持。

1. 创建代码目录

创建一个项目目录结构，用于存放代码文件、模型文件、测试数据等。以下是一个示例目录结构：

MyInferenceApp
├── model/                  # 存放模型文件
│   ├── model.om            # 昇腾AI处理器的离线模型文件

├── data/                   # 存放测试数据
│   ├── input.jpg           # 测试图片数据

├── inc/                    # 存放头文件
│   ├── app.h               # 应用声明的头文件

├── src/                    # 存放源代码和编译脚本
│   ├── CMakeLists.txt      # 编译脚本
│   ├── main.cpp            # 主要的源代码文件

├── out/                    # 存放输出结果

2. 构建模型

首先，需要一个适配昇腾AI处理器的离线模型（.om文件）。

可以使用ATC（Ascend Tensor Compiler）工具将开源框架的网络模型转换为适配昇腾AI处理器的离线模型（*.om文件）。以ONNX框架的ResNet-50网络为例，我们将一步步进行说明。

2.1 下载原始模型文件

cd <SAMPLE_DIR>/MyFirstApp_ONNX/model
wget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/003_Atc_Models/resnet50/resnet50.onnx

2.2 使用ATC工具转换模型

执行以下命令，将ONNX模型转换为昇腾AI处理器能识别的*.om模型文件。请确保具有命令中相关路径的可读、可写权限，并根据实际情况替换<SAMPLE_DIR>和<soc_version>。

atc --model=resnet50.onnx --framework=5 --output=resnet50 --input_shape="actual_input_1:1,3,224,224" --soc_version=<soc_version>

--model: 指定ResNet-50网络的模型文件路径。
--framework: 指定原始框架类型，ONNX框架的值为5。
--output: 指定输出的模型文件名，这里是resnet50.om。
--input_shape: 指定模型输入数据的shape。
--soc_version: 指定昇腾AI处理器的版本。执行npu-smi info命令查询，在查询到的“Name”前增加Ascend信息，如Ascend910A

如果想快速体验使用转换后的om离线模型文件进行推理，请准备好环境、om模型文件、符合模型输入要求的*.bin格式的输入数据，并参考msame工具的README进行体验。（可选）

2.3 注意事项

如果模型转换时提示有不支持的算子，请参考TBE&AI CPU自定义算子开发指南完成自定义算子后，再重新转换模型。
如果模型转换时提示有算子编译相关问题，无法定位问题时，需设置环境变量DUMP_GE_GRAPH和DUMP_GRAPH_LEVEL，重新模型转换，收集模型转换过程中的图描述信息，提供给华为工程师定位问题。
如果模型的输入Shape是动态的，请参考模型动态Shape输入推理的说明。
如果现有网络不满足需求，可以使用昇腾AI处理器支持的算子、调用Ascend Graph接口自行构建网络，再编译成om离线模型文件。详细说明请参见Ascend Graph开发指南。

3. 模型加载

模型加载的接口调用流程可以分为两种方式：

通过接口中的配置参数区分加载方式：这种方式适用于从文件加载、从内存加载等不同加载方式，但涉及多个接口配合使用。
- 使用aclmdlSetConfigOpt接口、aclmdlLoadWithConfig接口通过设置各属性的取值，直接一次性配置是从文件加载，还是从内存加载，以及内存是由系统内部管理，还是由用户管理。

通过不同接口区分加载方式：这种方式根据不同的加载方式选择不同的接口，操作简单，但需要记住各种方式的加载接口。
- 当输入数据的Shape确定时，由用户自行管理内存。需要调用aclmdlQuerySize，aclrtMalloc接口查询和申请模型运行时所需工作内存、权值内存的大小，然后再从文件或内存进行加载。
  - aclmdlLoadFromFileWithMem：从文件加载离线模型数据，由用户自行管理内存。
  - aclmdlLoadFromMemWithMem：从内存加载离线模型数据，由用户自行管理内存。
- 当输入数据的Shape不确定时，由系统内部管理内存。
  - aclmdlLoadFromFile：从文件加载离线模型数据，由系统内部管理内存。
  - aclmdlLoadFromMem：从内存加载离线模型数据，由系统内部管理内存。

3.1 示例代码

以下是一个关键步骤的代码示例，用于从文件加载模型并自行管理内存。

// 1.初始化变量。
const char* omModelPath = "../model/resnet50.om";

// 2.根据模型文件获取模型执行时所需的权值内存大小、工作内存大小。
size_t modelMemSize_ = 0, modelWeightSize_ = 0;
aclError ret = aclmdlQuerySize(omModelPath, &modelMemSize_, &modelWeightSize_);

// 3.根据工作内存大小，申请Device上模型执行的工作内存。
void* modelMemPtr_ = nullptr;
ret = aclrtMalloc(&modelMemPtr_, modelMemSize_, ACL_MEM_MALLOC_HUGE_FIRST);

// 4.根据权值内存的大小，申请Device上模型执行的权值内存。
void* modelWeightPtr_ = nullptr;
ret = aclrtMalloc(&modelWeightPtr_, modelWeightSize_, ACL_MEM_MALLOC_HUGE_FIRST);

// 5.加载离线模型文件，由用户自行管理模型运行的内存(包括权值内存、工作内存)。
// 模型加载成功，返回标识模型的ID。
aclmdlDesc* modelId_ = nullptr;
ret = aclmdlLoadFromFileWithMem(omModelPath, &modelId_, modelMemPtr_, modelMemSize_, modelWeightPtr_, modelWeightSize_);

4. 模型执行

模型执行的接口调用流程可以分为以下几个步骤：

在模型加载之后，模型执行之前，需要准备输入、输出数据结构，并将输入数据传输到模型输入数据结构的对应内存中。
模型执行结束后，若无需使用输入数据、aclmdlDesc类型、aclmdlDataset类型、aclDataBuffer类型等相关资源，需及时释放内存、销毁对应的数据类型，防止内存异常。

4.1 获取模型描述信息

调用aclmdlCreateDesc接口创建描述模型基本信息的数据类型。
调用aclmdlGetDesc接口根据模型加载中返回的模型ID获取模型基本信息。

// 1. 获取模型描述信息
aclmdlDesc* modelDesc_ = aclmdlCreateDesc();
aclError ret = aclmdlGetDesc(modelDesc_, modelId_);

4.2 准备输入/输出数据结构

// 2. 准备模型推理的输入数据结构
// 申请输入内存
size_t modelInputSize;
void *modelInputBuffer = nullptr;
aclRet = aclrtMalloc(&modelInputBuffer, modelInputSize, ACL_MEM_MALLOC_NORMAL_ONLY);

// 准备模型推理的输入数据结构
input_ = aclmdlCreateDataset();
aclDataBuffer *inputData = aclCreateDataBuffer(modelInputBuffer, modelInputSize);
ret = aclmdlAddDatasetBuffer(input_, inputData);

// 准备模型推理的输出数据结构
output_ = aclmdlCreateDataset();
size_t outputSize = aclmdlGetNumOutputs(modelDesc_);
for (size_t i = 0; i < outputSize; ++i) {
    size_t buffer_size = aclmdlGetOutputSizeByIndex(modelDesc_, i);
    void *outputBuffer = nullptr;
    aclError ret = aclrtMalloc(&outputBuffer, buffer_size, ACL_MEM_MALLOC_NORMAL_ONLY);
    aclDataBuffer* outputData = aclCreateDataBuffer(outputBuffer, buffer_size);
    ret = aclmdlAddDatasetBuffer(output_, outputData);
}

4.3 执行模型推理

根据实际场景选择同步推理或异步推理。

对于同步推理，直接获取模型推理的输出数据即可。
对于异步推理，在实现Callback功能时，在回调函数内获取模型推理的结果。

string testFile[] = {
        "../data/dog1_1024_683.bin",
        "../data/dog2_1024_683.bin"
    };

// 3. 模型推理
for (size_t index = 0; index < sizeof(testFile) / sizeof(testFile[0]); ++index) {
    // 读取图片文件
    void *inputBuff = nullptr;
    uint32_t inputBuffSize = 0;
    auto ret = Utils::ReadBinFile(fileName, inputBuff, inputBuffSize);
    
    // 准备模型推理的输入数据
    if (!g_isDevice) {
        aclError aclRet = aclrtMemcpy(modelInputBuffer, modelInputSize, inputBuff, inputBuffSize, ACL_MEMCPY_HOST_TO_DEVICE);
        (void)aclrtFreeHost(inputBuff);
    } else {
        aclError aclRet = aclrtMemcpy(modelInputBuffer, modelInputSize, inputBuff, inputBuffSize, ACL_MEMCPY_DEVICE_TO_DEVICE);
        (void)aclrtFree(inputBuff);
    }
    
    // 执行模型推理
    ret = aclmdlExecute(modelId_, input_, output_);

    // 输出模型推理的结果，输出top5置信度的类别编号 
    for (size_t i = 0; i < aclmdlGetDatasetNumBuffers(output_); ++i) {
    // 获取每个输出的内存地址和内存大小
        aclDataBuffer* dataBuffer = aclmdlGetDatasetBuffer(output_, i);
        void* data = aclGetDataBufferAddr(dataBuffer);
        size_t len = aclGetDataBufferSizeV2(dataBuffer);

        // 将内存中的数据转换为float类型
        float *outData = NULL;
        outData = reinterpret_cast<float*>(data);
        
        // 屏显每张图片的top5置信度的类别编号
        map<float, int, greater<float> > resultMap;
        for (int j = 0; j < len / sizeof(float); ++j) {
            resultMap[*outData] = j;
            outData++;
        }
        int cnt = 0;
        for (auto it = resultMap.begin(); it != resultMap.end(); ++it) {
            if (++cnt > 5)
                break;
            INFO_LOG("top %d: index[%d] value[%lf]", cnt, it->second, it->first);
    }
}

4.4 释放内存和数据类型

在模型推理结束后，需依次调用aclDestroyDataBuffer接口、aclmdlDestroyDataset接口及时释放描述模型输入、输出数据类型的数据。

// 4. 释放模型推理的输入、输出资源
for (size_t i = 0; i < aclmdlGetDatasetNumBuffers(input_); ++i) {
    aclDataBuffer *dataBuffer = aclmdlGetDatasetBuffer(input_, i);
    (void)aclDestroyDataBuffer(dataBuffer);
}
(void)aclmdlDestroyDataset(input_);
input_ = nullptr;
aclrtFree(modelInputBuffer);

for (size_t i = 0; i < aclmdlGetDatasetNumBuffers(output_); ++i) {
    aclDataBuffer* dataBuffer = aclmdlGetDatasetBuffer(output_, i);
    void* data = aclGetDataBufferAddr(dataBuffer);
    (void)aclrtFree(data);
    (void)aclDestroyDataBuffer(dataBuffer);
}
(void)aclmdlDestroyDataset(output_);
output_ = nullptr;

5. 模型卸载

模型推理完成后，您需要通过aclmdlUnload接口来卸载模型。此外，还需要销毁aclmdlDesc类型的模型描述信息，并释放模型运行所需的工作内存和权值内存。

// 1. 卸载模型
aclError ret = aclmdlUnload(modelId_);

// 2. 释放模型描述信息
if (modelDesc_ != nullptr) {
    (void)aclmdlDestroyDesc(modelDesc_);
    modelDesc_ = nullptr;
}

// 3. 释放模型运行的工作内存
if (modelWorkPtr_ != nullptr) {
    (void)aclrtFree(modelWorkPtr_);
    modelWorkPtr_ = nullptr;
    modelWorkSize_ = 0;
}

// 4. 释放模型运行的权值内存
if (modelWeightPtr_ != nullptr) {
    (void)aclrtFree(modelWeightPtr_);
    modelWeightPtr_ = nullptr;
    modelWeightSize_ = 0;
}