初步学习TensorRT部署的时候,遇到很多不知道什么意思的函数,这里用来纪录一下
- ICudaEngine::getNbBindings():获取与这个engine相关的输入输出的tensor的数量,不过在TensorRT 8.5中被弃用,ICudaEngine::getNbIOTensors替代使用
- ICudaEngine::getNbIOTensors: 文档中的解释很清楚,It is the number of input and output tensors for the network from which the engine was built
- ICudaEngine::getBindingIndex : 输入参数是(char const* name) ,检索命名张量的绑定索引。engine建立的时候,是把tensor的名字和在张量中的所以对应起来的。但是这个函数也是在TensorRT 8.5中被弃用。
- cudamalloc: 在GPU设备内存上分配内存。需要指定要分配的字节数。返回一个指向device内存的指针。
- cudaStreamCreate:CUDA中的流(stream)表示一个GPU操作队列,该队列中的操作将以添加到流中的先后顺序而依次执行。可以将一个流看做是GPU上的一个任务,不同的流(即不同的任务)可以并行执行。这种并行性允许在同一设备上的多个操作重叠执行,从而提高了GPU的利用率和程序的执行效率。
- cudaMemcpyAsync:用于在主机(CPU)和设备(GPU)之间异步传输数据。它可以在主机和设备之间进行内存复制操作,而不会阻塞主机线程的执行。
- cudaStreamSynchronize:这个函数会阻塞主机代码的执行,直到指定的流中的所有之前的异步操作都完成。这样可以确保在继续执行主机代码之前,所有之前的设备操作都已经完成。
- IExecutionContext::enqueue: 前向推理,最老的API,支持隐式批处理,已经被弃用了
- IExecutionContext::enqueueV2: 前向推理,enqueue的替代,支持显式批处理,已经被弃
- IExecutionContext::enqueueV3: 前向推理,最新的API,支持依赖数据的形状,推荐使用