模型部署
文章平均质量分 89
郑小路
东北大学机器人科学与工程硕士在读
展开
-
Nsight Systems:Unable to configure the collection of CPU IP samples报错
Unable to configure the collection of CPU IP samples, backtraces, and/or scheduling data. Try the 'nsys status --environment' command to learn more.原创 2024-09-16 20:30:32 · 592 阅读 · 0 评论 -
TensorRT入门:polygraphy模型调试器的使用
在模型迁移到 TensorRT 之后,我们还需要解决下面的三个问题,怎么检验 TonsRT 上计算的正确性和计算精度?怎么找出计算错误或者精度不足的层?怎么进行简单的计算图优化?为了解决上述问题,我们需要引入Polygraphy这个工具。它是一个NVIDIA提供的深度学习模型的调试器。原创 2024-03-02 19:28:40 · 3556 阅读 · 0 评论 -
TensorRT入门:trtexec开发辅助工具的使用
trtexec 工具是 TensorRT 的命令行工具,位于 TensorRT 的安装目录中,随 TensorRT 的安装就可以直接使用。trtexec,不仅打包了几乎所有 TensorRT 脚本可以完成的工作,并且扩展丰富的推理性能测试的功能。通常我们使用 trtexec 完成下面三个方面的工作,一是由 Onnx 模型文件生成 TensorRT 推理引擎,并且可以序列化为 .plan 文件。二是可以查看 Onnx 或者 .plan 文件的网络的逐层信息。第三是可以进行模型性能测试。原创 2024-03-02 12:17:07 · 4750 阅读 · 1 评论 -
TensorRT:onnx parser与onnx-graphsurgeon的解析与实践
TensorRT作为一种高性能推理引擎,为我们提供了优化和加速深度学习模型的能力。而在TensorRT中,`ONNX parser`和`onnx-graphsurgeon`则是两个强大的工具,能够帮助我们更好地解析和优化ONNX模型。本博客包含ONNX parser、parser的使用、onnx-graphsurgeon三个章节,重点在介绍onnx-graphsurgeon的使用,列举了大量onnx-graphsurgeon的使用方法示例原创 2024-03-01 17:09:39 · 2636 阅读 · 1 评论 -
ONNX 模型格式分析与使用
本文主要介绍ONNX基础知识已经ONNX的模型组成,另外补充了一些关于模型部署工作的常用流程,本文主要知识点在介绍ONNX的模型组成,包括Graph、Node和Tensor,后续将补充代码例程部分。需要注意的是,虽然ONNX提供了一种通用的中间表示格式,但在实际转换中仍可能会出现一些兼容性和限制性问题。因此,在进行模型转换时,建议仔细了解目标设备和框架的要求,并进行必要的适配和调整。原创 2024-02-29 15:48:41 · 6044 阅读 · 3 评论 -
TensorRT:INT8量化加速原理与问题解析
本文将首先介绍INT8量化的基础知识,解答一些关于INT8的基础问题,然后介绍三种常见的INT8量化算法,包括动态对称量化、动态非对称量化、静态对称量化,最后介绍一个在TensorRT中实现INT8量化的例子:MNIST手写数字识别的INT8_PTQ量化。原创 2024-02-28 16:51:40 · 3219 阅读 · 0 评论 -
TensorRT:FP16优化加速的原理与实践
TensorRT:FP16优化加速的原理与实践:FP16也是一种精度类型,只不过它的位数只有16位,被称为半精度浮点数,它包括1位符号位、5位指数位、10位小数位,由于位数的减少,所以FP16的表示范围和精度都比FP32低,但是对于模型部署来说,数据位数的减少可以让计算复杂度降低,加速模型推理速度。原创 2024-02-28 10:26:14 · 1612 阅读 · 0 评论 -
TensorRT_Plugin:手写Plugin详细步骤教程
本文为学习Nvidia官方视频教程的学习笔记,分享TensorRT手写Plugin的详细步骤,文中代码参考Nvidia提供的cookbook中05-Plugin/API的代码,强烈建议您先观看Nvidia的教程视频第三节,然后学习本文档。手写Plugin难度较高,尤其是Plugin的核函数部分,建议参考Nvidia的教程模板进行修改,另外针对于Plugin的读取,需要大家了解并掌握详细的读取步骤,实现对Plugin的注册和配置,并最终实现将自己手写的Plugin插入到网络中。原创 2024-02-23 16:13:14 · 1274 阅读 · 0 评论 -
模型精度问题(FP16,FP32,TF32,INT8)精简版
相信大家在学习模型部署和加速时都遇到过模型精度问题,精度和效率往往需要根据实际模型应用需求进行取舍,下面我以最精简的方式介绍常见的模型精度类型(FP16,FP32,TF16,INT8),希望对大家处理模型精度问题有所帮助。浮点数精度:双精度(FP64)、单精度(FP32、TF32)、半精度(FP16、BF16)、8位精度(FP8)、4位精度(FP4、NF4)量化精度:INT8、INT4。原创 2024-02-13 13:35:15 · 8924 阅读 · 0 评论