常见的本地模型部署框架，可以帮助你将训练好的模型部署到本地环境中使用：_适合本地化部署的生成式大模型开发应用框架-CSDN博客

本文链接：https://blog.csdn.net/weixin_51782176/article/details/145183158

一、TensorFlow Serving

特点：
- 由 Google 开发，专门用于部署 TensorFlow 模型。
- 支持模型版本管理，能够同时部署多个模型版本，并在运行时切换不同版本。
- 提供了高效的服务架构，支持高并发的模型推理请求。
- 可以将模型作为 RESTful API 或 gRPC 服务进行部署，方便客户端调用。
使用步骤：
- 首先，将训练好的 TensorFlow 模型保存为 SavedModel 格式。
- 然后，使用 TensorFlow Serving 的 Docker 容器或直接安装 TensorFlow Serving 二进制文件。
- 最后，启动服务并加载模型，客户端可以通过 REST 或 gRPC 接口发送请求进行推理。
示例代码（使用 Docker 部署）：

# 拉取 TensorFlow Serving 镜像
docker pull tensorflow/serving

# 启动 TensorFlow Serving 容器并加载模型
docker run -p 8501:8501 --mount type=bind,source=/path/to/your/model,target=/models/my_model -e MODEL_NAME=my_model -t tensorflow/serving

代码解释：
- docker pull tensorflow/serving：从 Docker 仓库拉取 TensorFlow Serving 镜像。
- docker run：运行 Docker 容器。
- -p 8501:8501：将容器内的 8501 端口映射到主机的 8501 端口，用于 REST API 服务。
- --mount：将本地的模型路径挂载到容器内的 /models/my_model 路径。
- -e MODEL_NAME=my_model：设置模型名称为 my_model。

二、ONNX Runtime

特点：
- 支持多种深度学习框架，如 TensorFlow、PyTorch、Keras 等的模型。
- 可以将模型转换为 ONNX 格式后进行部署，实现跨框架的模型部署。
- 提供了高性能的推理引擎，支持 CPU 和 GPU 加速。
- 适用于不同平台，包括 Windows、Linux、macOS 等。
使用步骤：
- 将模型从源框架转换为 ONNX 格式。
- 安装 ONNX Runtime 库，使用 pip install onnxruntime。
- 使用 ONNX Runtime 进行模型推理。
示例代码（使用 ONNX Runtime 进行推理）：

import onnxruntime
import numpy as np

# 加载 ONNX 模型
ort_session = onnxruntime.InferenceSession('model.onnx')

# 准备输入数据
input_data = np.random.randn(1, 3, 224, 224).astype(np.float32)
input_name = ort_session.get_inputs()[0].name
output_name = ort_session.get_outputs()[0].name

# 推理
results = ort_session.run([output_name], {input_name: input_data})
print(results)

代码解释：
- onnxruntime.InferenceSession('model.onnx')：加载 ONNX 模型。
- np.random.randn(1, 3, 224, 224).astype(np.float32)：生成随机输入数据。
- ort_session.get_inputs()[0].name 和 ort_session.get_outputs()[0].name：获取输入和输出的名称。
- ort_session.run([output_name], {input_name: input_data})：进行推理，将输入数据传递给模型并获取结果。

三、PyTorch Serve

特点：
- 由 PyTorch 团队开发，专注于 PyTorch 模型的部署。
- 提供了模型管理、版本管理和微服务架构。
- 支持模型打包和部署为 RESTful API 服务。
- 可以轻松扩展，添加自定义的预处理和后处理逻辑。
使用步骤：
- 安装 PyTorch Serve 并将 PyTorch 模型打包为 .mar 文件。
- 启动 PyTorch Serve 服务并加载打包好的模型。
- 客户端通过 REST API 调用服务进行推理。
示例代码（安装和启动 PyTorch Serve）：

# 安装 PyTorch Serve
pip install torchserve torch-model-archiver torch-workflow-archiver

# 打包模型
torch-model-archiver --model-name my_model --version 1.0 --model-file model.py --serialized-file model.pth --handler handler.py --export-path model_store

# 启动服务
torchserve --start --ncs --model-store model_store --models my_model.mar

代码解释：
- pip install torchserve torch-model-archiver torch-workflow-archiver：安装所需的 PyTorch Serve 相关工具。
- torch-model-archiver：将模型、代码文件和处理程序打包成 .mar 文件。
- torchserve --start --ncs --model-store model_store --models my_model.mar：启动 PyTorch Serve 服务并加载模型。

四、Flask 或 Django 框架（适用于简单的 Web 部署）

特点：
- Flask 和 Django 是常见的 Python Web 框架，可用于将模型封装为 Web 服务。
- 适合小型项目或对性能要求不高的场景。
- 易于使用和扩展，可以方便地添加模型预测接口。
使用步骤（以 Flask 为例）：
- 安装 Flask 框架，使用 pip install flask。
- 编写一个简单的 Flask 应用，将模型推理代码封装在视图函数中。
示例代码（使用 Flask 部署模型）：

from flask import Flask, jsonify, request
import torch

app = Flask(__name__)

# 加载 PyTorch 模型
model = torch.load('model.pth')
model.eval()


@app.route('/predict', methods=['POST'])
def predict():
    data = request.get_json(force=True)
    input_data = torch.tensor(data['input'])
    output = model(input_data)
    return jsonify(output.tolist())


if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

代码解释：
- torch.load('model.pth')：加载 PyTorch 模型。
- @app.route('/predict', methods=['POST'])：定义 /predict 接口，接收 POST 请求。
- request.get_json(force=True)：从请求中获取 JSON 数据。
- model(input_data)：使用模型进行推理。

五、Streamlit 框架（适用于快速原型开发和可视化）

特点：
- 主要用于快速构建数据应用和模型演示界面。
- 可以轻松将模型集成到一个交互式的 Web 应用中，无需编写复杂的 HTML 或 JavaScript。
- 适合数据科学家和开发者快速展示模型的功能。
使用步骤：
- 安装 Streamlit，使用 pip install streamlit。
- 编写一个 Streamlit 应用，将模型推理代码添加到应用中。
示例代码（使用 Streamlit 展示模型）：

import streamlit as st
import torch

# 加载模型
model = torch.load('model.pth')
model.eval()


def main():
    st.title("Model Prediction")
    input_data = st.text_input("Enter input data")
    if st.button("Predict"):
        input_tensor = torch.tensor([float(input_data)])
        output = model(input_tensor)
        st.write(f"Output: {output.item()}")


if __name__ == "__main__":
    main()

代码解释：
- st.text_input("Enter input data")：添加一个输入框。
- st.button("Predict")：添加一个预测按钮。
- model(input_tensor)：使用模型进行推理。

这些部署框架各有优缺点，你可以根据自己的模型类型、性能需求、开发和部署环境等因素来选择合适的框架。如果需要高性能、多模型管理和复杂的服务架构，TensorFlow Serving 或 PyTorch Serve 可能更合适；对于跨框架部署，ONNX Runtime 是不错的选择；而对于快速原型开发和简单的 Web 部署，Flask、Django 或 Streamlit 可能更方便。