TensorRT 系列之入门篇-优化特点

一 tensorTR对于kernel launch以及每层tensor data读取的速度不对称的问题的解决:
(1)(纵向融合)通过融合相同顺序的操作来减少Kernel launch的消耗以及避免层之间的读写操作.如卷积;bias和Relu层可以融合成一个kernel,这里称之为CBR
(2)(横向融合)TensorRT会去挖掘输入数据且filter大小相同但weights不同的层,对于这些层不是使用三个不同的kernel而是使用一个kernel来提高效率
(3)通过预分配输出缓存以及跳跃式的写入方式来避免这次转换

二 在前向传播中采用FP16或者INT8精度计算从而获得更小的模型,低的显存占用率和延迟以及更高的吞吐率

优化结果

上图为基于Resnet50网络,分别在CPU、V100+TensorFlow、V100+TensorRT上进行推理时的性能比较,纵轴为每秒处理的图片数量。相较于CPU和TensorFlow,TensorRT可以带来40倍和18倍的吞吐率的提升,而这部分的提升只需要在拥有GPU的前提下使用TensorRT即可免费获得。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值