1. 配置lmdeploy运行环境
1.1. 创建conda环境
- 由于环境依赖项存在torch,下载过程可能比较缓慢。InternStudio上提供了快速创建conda环境的方法。打开命令行终端,创建一个名为lmdeploy的环境:
studio-conda -t lmdeploy -o pytorch-2.1.2
1.2. 安装LMDeploy
conda activate lmdeploy
pip install lmdeploy[all]==0.3.0
2. 下载internlm-chat-1.8b模型
-
- HuggingFace是一个高速发展的社区,包括Meta、Google、Microsoft、Amazon在内的超过5000家组织机构在为HuggingFace开源社区贡献代码、数据集和模型。可以认为是一个针对深度学习模型和数据集的在线托管社区,如果你有数据集或者模型想对外分享,网盘又不太方便,就不妨托管在HuggingFace
- 托管在HuggingFace社区的模型通常采用HuggingFace格式存储,简写为HF格式
- 但是HuggingFace社区的服务器在国外,国内访问不太方便。国内可以使用阿里巴巴的MindScope社区,或者上海AI Lab搭建的OpenXLab社区,上面托管的模型也通常采用HF格式
-
- TurboMind是LMDeploy团队开发的一款关于LLM推理的高效推理引擎,它的主要功能包括:LLaMa 结构模型的支持,continuous batch 推理模式和可扩展的 KV 缓存管理器
- TurboMind推理引擎仅支持推理TurboMind格式的模型。因此,TurboMind在推理HF格式的模型时,会首先自动将HF格式模型转换为TurboMind格式的模型。该过程在新版本的LMDeploy中是自动进行的,无需用户操作。
-
- TurboMind与LMDeploy的关系:LMDeploy是涵盖了LLM 任务全套轻量化、部署和服务解决方案的集成功能包,TurboMind是LMDeploy的一个推理引擎,是一个子模块。LMDeploy也可以使用pytorch作为推理引擎
- TurboMind与TurboMind模型的关系:TurboMind是推理引擎的名字,TurboMind模型是一种模型存储格式,TurboMind引擎只能推理TurboMind格式的模型
2.1. 模型下载
ls /root/share/new_models/Shanghai_AI_Laboratory/
cd ~
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/
# cp -r /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/
ls
2.2. 使用Transformer库运行模型
# 在终端中输入如下指令,新建pipeline_transformer.py
touch /root/pipeline_transformer.py
conda activate lmdeploy
python /root/pipeline_transformer.py
3. 以命令行方式与模型对话
# 首先激活创建好的conda环境:
conda activate lmdeploy
# 使用LMDeploy与模型进行对话的通用命令格式为:
lmdeploy chat [HF格式模型路径/TurboMind格式模型路径]
# 可以执行如下命令运行下载的1.8B模型:
lmdeploy chat /root/internlm2-chat-1_8b