trt多流、多batch、多context

最新推荐文章于 2024-04-11 13:43:05 发布

曙光_deeplove

最新推荐文章于 2024-04-11 13:43:05 发布

阅读量1.5k

点赞数

分类专栏：深度学习算法部署 tensorRT 文章标签： tensorRT

本文链接：https://blog.csdn.net/yangjinyi1314/article/details/128146619

版权

深度学习算法部署同时被 2 个专栏收录

28 篇文章 15 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

tensorRT

6 篇文章 0 订阅

订阅专栏

（1）一个engine可以创建多个context，一个engine可以有多个执行上下文，允许一组权值用于多个重叠推理任务。例如，可以使用一个引擎和一个上下文在并行CUDA流中处理图像。每个上下文将在与引擎相同的GPU上创建。

（2）engine：引擎。不能跨平台和TensorRT版本移植。若要存储，需要将引擎转化为一种格式，即序列化，若要推理，需要反序列化引擎。引擎用于保存网络定义和模型参数。在特定 config 与硬件上编译出来的计算引擎，且只能应用于特定的 config 与硬件上，支持持久化到本地以便进行发布或者节约下次使用的编译时间。engine 集成了模型结构、模型参数与最优计算 kernel 配置。同时 engine 与硬件和 TensorRT 版本强绑定，所以要求 engine 的编译与执行的硬件与 TensorRT 版本要保持一致。

（3）context：上下文。创建一些空间来存储中间值。一个engine可以创建多个context，分别执行多个推理任务。进行 inference 的实际对象，由 engine 创建，与 engine 是一对多的关系。

（4）看到官网上说
In general TensorRT objects are not thread-safe. The expected runtime concurrency model is that different threads will operate on different execution contexts. The context contains the state of the network (activation values etc) during execution, so using a context concurrently