paddle-fuid部署加速方案-引擎

本文介绍了PaddlePaddle如何利用TensorRT进行推理加速。NativeConfig是原生引擎,支持所有Paddle模型,而AnalysisConfig则包含计算图优化和TensorRT支持,通过Op融合提高性能。TensorRT作为一个高性能预测库,通过子图方式集成在PaddlePaddle中,优化模型预测速度,目前支持多种常见模型。
摘要由CSDN通过智能技术生成

高层 API 底层有多种优化实现,我们称之为 engine;不同 engine 的切换通过传递不同的 Config 实现重载。

NativeConfig

  • 原生 engine,由 paddle 原生的 forward operator 组成,可以天然支持所有paddle 训练出的模型

AnalysisConfig

  • 特性
    • 支持计算图的分析和优化
    • 支持最新的各类 op fuse,性能一般比 NativeConfig 要好
    • 支持 TensorRT mixed engine 用于 GPU 加速,用子图的方式支持了 [TensorRT] ,支持所有paddle 模型,并自动切割部分计算子图到 TensorRT 上加速
  • 我的理解
    • 我知道的op融合:conv+bn融合、relu融合
    • 我记得trt的融合:多路conv层横向融合、单路多个conv层纵向融合。TensorRT在推断期间能够进行Op的横向和纵向融合,过滤掉冗余的Op,并对特定平台下的特定的Op选择合适的kenel等进行优化,能够加快模型的预测速度
    • AnalysisConfig和trt关系:AnalysisConfig才支持trt,当然也可以不使用trt

TensorRT

NVIDIA TensorRT 是一个高性能的深度学习预测库,可为深度学习推理应用程序提供低延迟和高吞吐量。PaddlePaddle 采用了子图的形式对TensorRT进行了集成,即我们可以使用该模块来提升Paddle模型的预测性能。该模

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值