1--TensorRT加速的原理
TensorRT 通过以下操作实现模型的加速:
① 垂直合并网络层:经典的一个合并是将 Conv、BN 和 ReLU 三层进行合并为一个层;如果不进行合并,调用这三层结构需要分别调用三次 cuDNN 对应的 API,合并之后只需要调用一次即可;
② 水平合并网络层:将输入相同,操作相同的层进行水平合并;
③ 支持混合精度:支持 FP16 和 FP32 同时进行推理,也支持 INT8 的量化,加快模型推理速度;
TensorRT 通过以下操作实现模型的加速:
① 垂直合并网络层:经典的一个合并是将 Conv、BN 和 ReLU 三层进行合并为一个层;如果不进行合并,调用这三层结构需要分别调用三次 cuDNN 对应的 API,合并之后只需要调用一次即可;
② 水平合并网络层:将输入相同,操作相同的层进行水平合并;
③ 支持混合精度:支持 FP16 和 FP32 同时进行推理,也支持 INT8 的量化,加快模型推理速度;