OnnxRuxtime 是开放神经网络交换格式的运行库。 ONNX是一种通用的神经网络描述格式,可以从其它神经网络框架格式,如pytorch, tensorflow, caffe等转换到onnx格式进行统一表示。
OnnxRuntime, 顾名思义,就是用来运行onnx格式神经网络模型的一种跨平台运行库,支持从windows到linux, 从pc到手机甚至物联网设备IOT的一种运行时框架,c++编写,支持各种硬件加速,可以方便移植到几乎所有平台。
以下为了简化起见,简称OnnxRuntime 为 ORT.
OnnxRuntime server是ORT自带的 推理服务器软件。 我们通常推理时是在本地进行的,ORT server可以把算力要求最高的部分部署到远程服务器上,通过http或grpc协议进行远程调用,本地只需要进行预处理或后处理即可。
官方页面: onnxruntime/ONNX_Runtime_Server_Usage.md at master · microsoft/onnxruntime (github.com)
流程:
ORT server : 启用ORT server + onnx 模型
本地程序及数据预处理 -》 http/gprc 请求 =》 ORT server => Return 本地程序=》 本地后处理