TensorRT部署中函数解析

最新推荐文章于 2024-07-25 16:14:44 发布

仙女修炼史

最新推荐文章于 2024-07-25 16:14:44 发布

阅读量591

点赞数 4

文章标签：深度学习 cnn

本文链接：https://blog.csdn.net/weixin_45209433/article/details/139316926

版权

初步学习TensorRT部署的时候，遇到很多不知道什么意思的函数，这里用来纪录一下

ICudaEngine::getNbBindings()：获取与这个engine相关的输入输出的tensor的数量，不过在TensorRT 8.5中被弃用，ICudaEngine::getNbIOTensors替代使用
ICudaEngine::getNbIOTensors: 文档中的解释很清楚，It is the number of input and output tensors for the network from which the engine was built
ICudaEngine::getBindingIndex : 输入参数是(char const* name) ，检索命名张量的绑定索引。engine建立的时候，是把tensor的名字和在张量中的所以对应起来的。但是这个函数也是在TensorRT 8.5中被弃用。
cudamalloc: 在GPU设备内存上分配内存。需要指定要分配的字节数。返回一个指向device内存的指针。
cudaStreamCreate：CUDA中的流（stream）表示一个GPU操作队列，该队列中的操作将以添加到流中的先后顺序而依次执行。可以将一个流看做是GPU上的一个任务，不同的流（即不同的任务）可以并行执行。这种并行性允许在同一设备上的多个操作重叠执行，从而提高了GPU的利用率和程序的执行效率。
cudaMemcpyAsync：用于在主机（CPU）和设备（GPU）之间异步传输数据。它可以在主机和设备之间进行内存复制操作，而不会阻塞主机线程的执行。
cudaStreamSynchronize：这个函数会阻塞主机代码的执行，直到指定的流中的所有之前的异步操作都完成。这样可以确保在继续执行主机代码之前，所有之前的设备操作都已经完成。
IExecutionContext::enqueue: 前向推理，最老的API，支持隐式批处理，已经被弃用了
IExecutionContext::enqueueV2: 前向推理，enqueue的替代，支持显式批处理，已经被弃
IExecutionContext::enqueueV3: 前向推理，最新的API，支持依赖数据的形状，推荐使用