笔记更新日期:20220914
官方github地址: https://github.com/triton-inference-server/model_analyzer
一个CLI工具, Model Analyzer能够由于测试评估基于tritonserver进行部署的模型,其能力包括:
对于模型的特定配置进行性能测试,可得到的性能指标包括:吞吐量、最大延迟、显存占用、GPU利用率、GPU功耗。测试时可配置模型实例数量、调用并发量。
对于单个模型进行配置搜索,在可配置的并发量与模型实例数范围内进行步进测试,并从测试结果种分析出最优的前几个配置文件。同时,它可以使用给定的吞吐量和最大延迟对结果进行标注和筛选,方便选择符合预期性能要求的模型配置。
优点:
- 可以测试多个模型(但注意每个模型单独运行,不能测试模型配合之后的效果)
- 使用真的很简单,真的很方便。
目前存在的问题:
- 测试gpu指标时必须保证被测gpu为独占使用,否则会把其它进程占用的显存也计算为本次测试使用的显存。
- 使用时需要保证模型的配置文件config.pbtxt中HWC轴是静态的,不能是动态的(也就是不能为-1)
- 部分机器上运行之后生成的pdf格式的report是空白的,运行不会报错。可能是机器QT的问题?不清楚
具体介绍
model-analyzer一共三个参数可以使用,非常方便
profile Run model inference profiling based on