ChatGLM-6B-INT4部署

1、环境

python 3.8

pytorch 2.0.0  (只支持Cuda 11.7 和 Cuda 11.8)

Cuda 11.8

(ChatGLM-6B-INT4最低 GPU 显存7G,所以显存要大于7GB)

2、创建虚拟环境

conda create -n chatglm python=3.8

激活环境

source activate chatglm

3、下载代码

git clone https://github.com/THUDM/ChatGLM-6B.git

4、安装包

切换到ChatGLM-6B文件夹下,执行以下命令,安装相应的包。

pip3 install -r requirements.txt

5、下载模型(两种部署模式)

5.1 从本地部署

修改web_demo.py文件:

从Hugging Face Hub下载ChatGLM-6B-INT4模型,然后把tokenizer和model中的路径替成ChatGLM-6B-INT4模型的路径。(可参考ChatGLM-6B部署笔记

5.2 从线上下载部署

修改web_demo2.py文件:

tokenizer = AutoTokenizer.from_pretrained("THUDM
### 部署 chatGLM-6B-INT4 模型的步骤 要在 Windows 系统上部署 chatGLM-6B-INT4 模型,可以按照以下方式操作: #### 准备环境 确保已安装 Python 并配置好开发环境。推荐使用虚拟环境来管理依赖项。创建并激活虚拟环境后,执行以下命令以安装必要的库: ```bash pip install -r requirements.txt ``` 此命令会根据 `requirements.txt` 文件中的列表自动安装所需的 Python 库[^1]。 #### 下载模型文件 由于网络原因或其他因素可能导致通过脚本下载失败,建议手动下载模型文件。前往 Hugging Face 官方页面寻找 chatGLM-6B-INT4 的相关资源,并将其完整地下载至本地目录。将这些文件解压后放置在一个新建立的 `model` 文件夹中[^3]。 #### 修改代码路径 完成模型文件的手动加载后,需调整部分源码使其指向正确的模型位置。具体来说,在项目内的几个主要脚本如 `web_demo.py`, `api.py`, 和 `cli_demo.py` 中定位到模型加载的部分,更新其默认地址为刚才设置好的自定义存储路径。 #### 启动服务 一切准备就绪后,可以通过运行特定启动脚本来初始化聊天机器人界面或者 RESTful API 接口。例如,如果希望开启图形化交互窗口,则可尝试如下指令: ```bash python web_demo.py ``` 对于硬件需求方面,考虑到该版本已经应用了 INT4 量化技术从而显著降低了内存消耗,理论上仅需约 6GB GPU 显存即可顺利运作[^2]。不过实际测试过程中发现某些场景下仍可能存在性能瓶颈;比如当试图进一步对该基础版做微调训练时可能会遇到资源不足的情况[^4]。 ### 注意事项 尽管上述流程适用于大多数常规情况下的单机独立部署方案,但在复杂生产环境中可能还需要额外考虑诸如负载均衡、高可用架构设计等问题。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值