1 . 部署lmdeploy
`pip install -U lmdeploy[all]`
由于先前已经下载配置好环境和下载好了模型文件,在此就不重复下载了
2. LMDeploy Chat CLI 工具
conda activate llama3
lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct
3. 模型量化
lmdeploy lite auto_awq \
/home/daoer/model/Meta-Llama-3-8B-Instruct \
--calib-dataset 'ptb' \
--calib-samples 128 \
--calib-seqlen 1024 \
--w-bits 4 \
--w-group-size 128 \
--work-dir /home/daoer/model/Meta-Llama-3-8B-Instruct_4bit
4. LMDeploy服务(serve)
通过以下命令启动API服务器,推理Meta-Llama-3-8B-Instruct模型:
lmdeploy serve api_server \
/root/model/Meta-Llama-3-8B-Instruct \
--model-format hf \
--quant-policy 0 \
--server-name 0.0.0.0 \
--server-port 23333 \
--tp 1
4.1 终端运行API
接下来连接api接口
新建一个终端
conda activate lmdeploy
# 运行命令行
lmdeploy serve api_client http://localhost:23333
4.2 web运行API
新建终端尝试本机web和ai交互:
# 安装gradio
pip install gradio==3.50.2
# 激活conda
conda activate lmdeploy
# 启动Gradio
lmdeploy serve gradio http://localhost:23333 \
--server-name 0.0.0.0 \
--server-port 6006
成功啦