-
使用lmdeploy来部署
-
安装过程
# 推荐CUDA版本高于12 conda create -n lmdeploy python=3.10 conda activate lmdeploy pip install lmdeploy
-
一键启动
lmdeploy serve api_server internlm/internlm2-chat-7b --server-port 23333
-
参数详解
可以运行以下命令查看参数信息lmdeploy serve api_server -h
参数名称 model_path 模型的路径。可以是以下选项之一:1、本地目录路径 2、在 Hugging Face 上托管模型的 model_id server-name 用于提供服务的主机 IP。默认值:0.0.0.0 server-port 服务器端口。默认值:23333 allow-origins 跨域请求的允许来源列表。默认值:[‘*’] allow-credentials 是否允许跨域请求携带凭据。默认值:False allow-methods 跨域请求的允许 HTTP 方法列表。默认值:[‘*’] allow-headers 跨域请求的允许 HTTP 头部列表。默认值:[‘*’] qos-config-path QoS 策略配置路径。默认值:.(当前目录) backend {pytorch,turbomind} 设置推理后端引擎。默认值:turbomind log-level {CRITICAL,FATAL,ERROR,WARN,WARNING,INFO,DEBUG,NOTSET} 设置日志级别。默认值:ERROR api-keys 可选的 API 密钥列表,以空格分隔。默认值:None ssl 启用 SSL。需要操作系统环境变量 ‘SSL_KEYFILE’ 和 ‘SSL_CERTFILE’。默认值:False meta-instruction ChatTemplateConfig 的系统提示。已弃用,请改用 --chat-template。默认值:None chat-template 指定聊天模板配置的 JSON 文件或字符串。请参阅此处获取规范。默认值:None adapters 设置 Lora 适配器路径。可以输入多个适配器的键值对,格式为 xxx=yyy。如果只有一个适配器,则只能输入适配器的路径。默认值:None tp 张量并行计算中使用的 GPU 数。应为 2 的幂。默认值:1 model-name 要部署的模型名称,例如 llama-7b、llama-13b、vicuna-7b 等。您可以运行 lmdeploy list 获取支持的模型名称。默认值:None session-len 序列的最大会话长度。默认值:None。 max-batch-size 最大批处理大小。默认值:128 cache-max-entry-count k/v 缓存占用的 GPU 内存百分比。默认值:0.8 cache-block-seq-len k/v 块中的令牌序列长度。对于 Turbomind 引擎,如果 GPU 计算能力 >= 8.0,则应是 32 的倍数,否则应是 64 的倍数。对于 PyTorch 引擎,如果指定了 Lora 适配器,则此参数将被忽略。默认值:64
lmdeploy部署 LLM 类 openai 服务
最新推荐文章于 2024-06-28 16:16:19 发布