Triton下的Onnx/TensorRT/Pytorch哪一个更快

测试对象和平台

测试对象:(gpt,C-Dial gpt)

测试平台:Triton Inference Server

性能测试比较

onnx形态

 什么是onnx?

Open Neural Network Exchange

ONNX | Home

运行命令:

docker run --rm --net=host hub.yun.paic.com.cn/pib-core/ibudda-triton:tritonserver-21.06-py3-sdk perf_analyzer -m ibuddha_chitchat_onnx --percentile=95 -u localhost:8010 -b 50  --shape input_ids:32 --shape attention_mask:32 --shape token_type_ids:32 --input-data zero

onnx和triton内onnx转tensorRT的性能测试

batch 1

batch 50

dynamic_batching { }

136

1500

dynamic_batching { }

optimization { execution_accelerators {

  gpu_execution_accelerator : [ {

    name : "tensorrt"

    }]

}}

264

1430

对比同一模型的pytorch形态

docker run --rm --net=host hub.yun.paic.com.cn/pib-core/ibudda-triton:tritonserver-21.06-py3-sdk perf_analyzer -m ibuddha_chitchat --percentile=95 -u localhost:8010 -b 1  --shape INPUT__0:32 --shape INPUT__1:32 --shape INPUT__2:32 --input-data zero

batch 1

batch 50

dynamic_batching

64

1330

dynamic_batching

parameters: { key: "INFERENCE_MODE" value: { string_value:"true" } }

99

1370

dynamic_batching

parameters: { key: "INFERENCE_MODE" value: { string_value:"true" } }

parameters: { key: "ENABLE_NVFUSER" value: { string_value:"true" } }

91

1300

已经默认打开的选型

ENABLE_JIT_EXECUTOR

ENABLE_JIT_PROFILING

ENABLE_TENSOR_FUSER

测试结论

onnx模型比优化后的pytorch模型更快35%

转为tensorRT后,相比优化后的pytorch模型,吞吐量提升1.5倍

  • 20
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值