1、环境
python 3.8
pytorch 2.0.0 (只支持Cuda 11.7 和 Cuda 11.8)
Cuda 11.8
(ChatGLM-6B-INT4最低 GPU 显存7G,所以显存要大于7GB)
2、创建虚拟环境
conda create -n chatglm python=3.8
激活环境
source activate chatglm
3、下载代码
git clone https://github.com/THUDM/ChatGLM-6B.git
4、安装包
切换到ChatGLM-6B文件夹下,执行以下命令,安装相应的包。
pip3 install -r requirements.txt
5、下载模型(两种部署模式)
5.1 从本地部署
修改web_demo.py文件:
从Hugging Face Hub下载ChatGLM-6B-INT4模型,然后把tokenizer和model中的路径替成ChatGLM-6B-INT4模型的路径。(可参考ChatGLM-6B部署笔记)
5.2 从线上下载部署
修改web_demo2.py文件:
tokenizer = AutoTokenizer.from_pretrained("THUDM