算子开发入门系列（一）

最新推荐文章于 2025-04-22 22:30:43 发布

Zain Lau

最新推荐文章于 2025-04-22 22:30:43 发布

阅读量1.7k

点赞数

文章标签：人工智能算子算子开发自定义算子 cuda CANN

本文链接：https://blog.csdn.net/weixin_44659309/article/details/133125174

版权

编写算子步骤：

1、确定输入输出（数据类型和维度）：明确算子功能，即要执行的操作
2、创建算子的头文件和源文件：使用C的语法，头文件和源文件分别用于声明和定义算子函数
3、在头文件中声明算子函数：头文件中使用extern关键字声明算子函数的原型，包括函数名、参数列表、返回值类型等
4、在源文件中定义算子函数：源文件中实现算子函数的具体逻辑。根据算子的功能和输入输出要求，编写相应的代码完成算子计算过程
5、编译和构建算子：使用Ascend C编译器将算子的源文件编译成可执行文件（可以根据需要把算子打包成库文件）
6、测试和验证算子：编写测试代码

算子融合

算子融合是一种深度学习模型优化技术，旨在将多个算子（操作）融合为一个算子，从而减少计算量和参数数量，提高模型性能和效率。在深度学习中，算子通常是指对张量（多维数组）进行操作的函数，如卷积（Convolution）、全连接层（Fully-Connected Layer）等。

通过将多个算子融合，可以减少计算量和参数数量，从而提高计算速度和内存使用效率。此外，算子融合还可以有助于减少模型大小，便于在移动设备等资源受限的设备上进行部署。

算子融合通常可以通过两种方式实现：

权重融合（Weight Fusion）：将多个算子的权重矩阵融合为一个矩阵，从而减少参数数量。
算子调度融合（Operator Scheduling Fusion）：通过调整算子的计算顺序，将多个算子融合为一个算子，从而减少计算量和内存使用。

需要注意的是，算子融合可能导致计算图变得更加复杂，因此可能需要更多的编译时间和优化时间。此外，并非所有的算子都可以进行融合，需要根据具体问题和硬件环境进行评估和调整。

在MindSpore中实现NMS算子

import mindspore as ms
import mindspore.ops as ops

class NMS(ms.nn.Cell):
    def __init__(self, iou_threshold=0.5):
        super(NMS, self).__init__()
        self.iou_threshold = iou_threshold
        self.transpose = ops.Transpose()
        self.non_max_suppression = ops.NMSWithMask(0)

    def construct(self, boxes, scores):
        boxes = self.transpose(boxes, (1, 0))
        scores = self.transpose(scores, (1, 0))
        output, _ = self.non_max_suppression(boxes, scores, self.iou_threshold)
        return output

# 创建NMS算子
nms_op = NMS(iou_threshold=0.5)

# 使用NMS算子进行非极大值抑制
output_boxes = nms_op(boxes, scores)