MobileViT v2导出onnx模型时遇Col2Im算子无法导出问题

  • num_dimensional_axis = symbolic_helper._get_tensor_sizes(output_size)[0] TypeError: 'NoneType' object is not subscriptable 
    (Occurred when translating col2im)
  • onnxruntime.capi.onnxruntime_pybind11_state.InvalidGraph: [ONNXRuntimeError] : 10 : INVALID_GRAPH : This is an invalid model. In Node, ("/classifier/classifier.0/ReduceMean", ReduceMean, "", -1) : ("/layer_5/layer_5.1/conv_proj/block/conv/Conv_output_0": tensor(float),) -> ("/classifier/classifier.0/ReduceMean_output_0",) , Error Unrecognized attribute: axes for operator ReduceMean
  • torch.onnx.errors.CheckerError: Unrecognized attribute: axes for operator ReduceMean
  • Context: Bad node spec for node. Name: /classifier/classifier.0/ReduceMean OpType: ReduceMean
  • raise ValueError(f"Unsupported ONNX opset version: {value}")
    ValueError: Unsupported ONNX opset version: 18
  • torch.onnx.errors.UnsupportedOperatorError: Exporting the operator 'aten::col2im' to ONNX opset version 13 is not supported. Please feel free to request support or submit a pull request on PyTorch GitHub: https://github.com/pytorch/pytorch/issues

1. 初始导出

原始模型直接导出(opset version配置版本为13),插入脚本如下:

    input = torch.randn((1, 3, 224, 224))
    torch.onnx.export(model, input, "weights/mobilevitv2-2.0_opset13.onnx", input_names=["input"], output_names=["output"], verbose=True, opset_version=13)

遇到error如下:

Log提示由于网络结构中存在col2im算子,而ONNX opset version 13不支持该算子,直到opset version 18才支持。故将torch.onnx.export()中opset_version设为18。

2. 配置opset 18选项

    input = torch.randn((1, 3, 224, 224))
    torch.onnx.export(model, input, "weights/mobilevitv2-2.0_opset18.onnx", input_names=["input"], output_names=["output"], verbose=True, opset_version=18)

执行后出现错误如下:

从log可以看出,该错误的原因为当前torch版本不支持导出opset version 18,故需升级torch。

3. 升级torch

我们将所有torch相关依赖包均升级为最高版本

再次执行推理导出,结果仍然报错,错误log如下:

4. 固定输出维度

经google搜索issue后确定,torch.onnx.export不支持动态输入目标shape的col2im算子导出,故我们找到对应Col2Im算子对应前向推理部分,如下:

其中F.fold()函数即为torch端的Col2Im算子,前面不支持导出的变长输入实为output_size,经debug得出output_size共存在三种输入分别为(28,28)、(14,14)以及(8,8),故我们只需要利用if else将其改为固定输入即可,修改如下:

修改脚本后再次执行即可正常导出opset version 18的onnx模型,对应的Col2Im算子如下图

虽然在导出时log中显示ReduceMean的错误(如下图),但onnx模型已经被保存出。

重点信息与ReduceMean的属性axes有关,详细解决请看第5点。

5. 推理错误

导出模型后,我们调用onnxruntime进行推理,出现如下报错:

简单看,就是网络中的ReduceMean算子有个属性axes是未识别的。查阅onnx官方资料可知,在opset=13时,用于决定ReduceMean计算轴的axes被安排在Attribute中,而opset=18则需放在节点node的input中。如下图:

所以,怀疑就是torch.onnx.export在导出onnx时,可能存在内置的bug,导致ReduceMean在转出时还是沿用了旧方案,将axes仍然放置在ATTRIBUTES(属性配置)中,经过检查刚导出的onnx模型,果然发现此问题,如下图:

所以,我们通过python脚本读入原始onnx模型,手动调整axes位置,调用onnx.helper.make_tensor新建axes tensor添置在ReduceMean算子的INPUTS中,即可正常运行。此处提供一份手动修改脚本,供参考,如下:

import onnx
from onnx import TensorProto

onnx_model = onnx.load_model("./weights/mobilevitv2-2.0_opset18.onnx")
for node in onnx_model.graph.node:
    if node.op_type == 'ReduceMean':
        for idx, cur_attr in enumerate(node.attribute):
            if cur_attr.name == 'axes':
                del node.attribute[idx]                                     
                ### 删除原始attribute中的axes
                break
        input_tensor = onnx.helper.make_tensor(name=node.name+'_axes',
                                               data_type=TensorProto.INT64,
                                               dims=[2],
                                               vals=[-2, -1])               
        ### 创建一个存放axes的tensor
        onnx_model.graph.initializer.append(input_tensor)                   
        ### 将新创建的axes tensor添加到onnx模型initializer proto结构中
        node.input.append(input_tensor.name)                                
        ### 将axes tensor的name加入到ReduceMean算子的input中
        break
onnx.save_model(onnx_model, "./weights/mobilevitv2-2.0_opset18_repair_reducemean.onnx")

另外,调用onnxruntime的通用推理脚本,请参考我的github工程(觉得好用,请帮忙点star),工程地址:https://github.com/xncaffe/caffe_convert_onnx ,按教程安装依赖包后即可使用onnx_inference.py进行推理。

6. 后续方案

        虽然通过前面的方法正常导出了opset version为18的onnx模型,但是由于市面上很多移动平台并不支持opset version为18的版本,而降级opset会带来很大的工作量且不会得到onnx官方的支持。那怎么样才能不改变模型结构,正常导出任何版本opset的onnx模型呢?

为此,我们分析了此模型中Col2Im的作用,其实就是做了维度转换,刚好是此网络前端的Gather部分的逆运算,每个Col2Im都与一组Gather+Transpose对应。如上图。所以,该过程其实可以完全使用Reshape和Transpose算子组合代替。故我们修改前向,使用reshape+permute组合替代前述的F.fold流程,修改后脚本如下:

修改后即可随意导处任何opset版本的onnx模型,而对应Col2Im在onnx模型被显示如下:

导出的opset=13的onnx和前述的使用Col2Im opset=18的onnx模型,调用onnx_inference.py推理后发现,结果完全一致,证明我们的推理完全正确,如下图:

  • 7
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
可以使用 ONNX Runtime 的 API 来删除 ONNX 模型中的多余节点,并将其导出为 TensorRT 引擎。以下是一些步骤: 1. 加载 ONNX 模型 首先,使用 ONNX Runtime 的 Python API 加载 ONNX 模型。可以使用以下代码: ```python import onnx import onnxruntime as ort # Load the ONNX model onnx_model = onnx.load("model.onnx") ``` 2. 删除多余节点 使用 ONNX Runtime 的 API,可以轻松删除 ONNX 模型中的多余节点。可以使用以下代码: ```python # Create a new ONNX model without the unnecessary nodes inputs = ["input_0"] outputs = ["output_0"] new_model = ort.quantization.quantize_dynamic(onnx_model, inputs=inputs, outputs=outputs) ``` 在这个例子中,我们使用 ONNX Runtime 的 `quantize_dynamic` API 来删除模型中的多余节点。我们还指定了输入和输出节点的名称。 3. 导出 TensorRT 引擎 使用 TensorRT 的 ONNX Parser,可以将 ONNX 模型解析为 TensorRT 的网络表示形式。可以使用以下代码将新的 ONNX 模型导出为 TensorRT 引擎: ```python import tensorrt as trt # Create a TensorRT builder builder = trt.Builder(TRT_LOGGER) # Create a TensorRT network from the ONNX model network = builder.create_network() parser = trt.OnnxParser(network, TRT_LOGGER) parser.parse_from_string(new_model.SerializeToString()) # Build an engine from the TensorRT network engine = builder.build_cuda_engine(network) ``` 在这个例子中,我们使用 TensorRT 的 Python API 创建一个 TensorRT builder 和一个 TensorRT network。然后,使用 TensorRT 的 ONNX Parser 将新的 ONNX 模型解析为 TensorRT 的网络表示形式,并将其添加到 TensorRT network 中。最后,使用 TensorRT builder 构建一个 TensorRT 引擎。 注意,这个例子中使用的是 `parse_from_string` 方法来解析 ONNX 模型。这是因为我们已经使用 ONNX Runtime 对模型进行了修改。如果您没有修改模型,则可以使用 `parse` 方法来解析原始 ONNX 模型。 4. 运行 TensorRT 引擎 构建完 TensorRT 引擎后,可以使用与前面例子中相同的代码来运行 TensorRT 推理。 ```python import pycuda.driver as cuda import pycuda.autoinit import numpy as np # Load the engine with open("engine.plan", "rb") as f: engine_data = f.read() engine = runtime.deserialize_cuda_engine(engine_data) # Allocate input and output buffers on the GPU input_bindings = [] output_bindings = [] stream = cuda.Stream() for binding in engine: size = trt.volume(engine.get_binding_shape(binding)) * engine.max_batch_size dtype = trt.nptype(engine.get_binding_dtype(binding)) if engine.binding_is_input(binding): input_bindings.append(cuda.mem_alloc(size * dtype.itemsize)) else: output_bindings.append(cuda.mem_alloc(size * dtype.itemsize)) # Load input data to the GPU input buffer input_data = np.random.randn(batch_size, input_size) cuda.memcpy_htod(input_bindings[0], input_data.flatten().astype(np.float32)) # Run inference context = engine.create_execution_context() context.execute_async_v2(bindings=input_bindings + output_bindings, stream_handle=stream.handle) cuda.streams.synchronize() # Get the output data from the GPU output buffer output_data = np.empty((batch_size, output_size), dtype=np.float32) cuda.memcpy_dtoh(output_data.flatten(), output_bindings[0]) ``` 在这个过程中,首先使用 TensorRT 的 Python API 加载 TensorRT 引擎。然后,使用 PyCUDA 分配输入和输出缓冲区,并将输入数据从主机(CPU)传输到设备(GPU)。接下来,使用 TensorRT 的 Python API 创建一个 TensorRT 执行上下文,并在 GPU 上异步执行 TensorRT 推理。最后,使用 PyCUDA 将输出数据从设备(GPU)传输到主机(CPU)。 这就是如何使用 ONNX Runtime API 删除 ONNX 模型中的多余节点,并将其导出为 TensorRT 引擎。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值