ChatGLM-6B-int4模型部署

想吃蛋挞¤☜

已于 2023-10-04 23:42:57 修改

阅读量2k

点赞数 29

分类专栏： AI 文章标签： ai chatgpt

于 2023-10-04 22:48:56 首次发布

本文链接：https://blog.csdn.net/weixin_64600209/article/details/133563606

版权

AI 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

ChatGLM-6B-int4模型部署

environment：

1、本地Linux 虚拟机 ubuntu-desktop-22.04.2，本地ip 为 192.168.100.150

一、本地服务器部署ChatGLM-6B-int4模型

1、配置虚拟环境

安装conda

wget https://repo.anaconda.com/archive/Anaconda3-2021.05-Linux-x86_64.sh
bash Anaconda3-2021.05-Linux-x86_64.sh

安装过程遇>>>则输入yes

conda	# 检验是否安装成功

# 显示 conda：未找到命令 则
vim ~/.bashrc
# 最后一行加上
export PATH=$PATH:/home/vincent/anaconda3/bin		# 路径根据实际情况
# 保存后
source ~/.bashrc

如果报错可以尝试更新conda

conda update -n base conda
conda update --all

~~ 更新过程时间比较久

激活环境

conda activate chatglm_env

安装`gcc`

apt update
apt install build-essential
apt-get install manpages-dev
gcc --version

2、本地服务器部署

安装`git`

apt update
apt install git
git --version	# 检验是否安装成功

克隆`ChatGLM-6B`项目

mkdir /chatglm
cd /chatglm
git clone https://github.com/THUDM/ChatGLM-6B.git

安装依赖

cd /ChatGLM-6B
pip install -r requirements.txt

选择模型

现在有三个模型，硬件需求：

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。
ChatGLM-6B-INT4 是 ChatGLM-6B 量化后的模型权重。具体的，ChatGLM-6B-INT4 对 ChatGLM-6B 中的 28 个 GLM Block 进行了 INT4 量化，没有对 Embedding 和 LM Head 进行量化。
ChatGLM-6B-INT4-QE 是 ChatGLM-6B 量化后的模型权重。具体的，ChatGLM-6B-INT4-QE 对 ChatGLM-6B 中的 28 个 GLM Block 、 Embedding 和 LM Head 进行了 INT4 量化。

克隆模型

选择chatglm-6b-int，进入Files and version

创建THUDM文件夹

mkdir THUDM
cd /THUDM

根据以下步骤克隆在THUDM目录下

没有lfs则需要安装

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
apt-get install git-lfs
git lfs install
# 使用git lfs：将文件跟踪到 Git LFS 中，请在项目目录中运行以下命令：
git lfs track "*.extension"

修改模型路径

我运行的是web_demo.py，所以我修改这个文件里面的路径

cd ../../
vim web_demo.py

设置局域网访问

部署完成，测试运行

python web_demo.py

如果报错缺少module则

pip install <module>

效果图

3、微调

P-Tuning v2

官方微调教程 --> 广告生成：点击高速

LoRA

我用的是这位大佬的方法，非常好用，附有一站式教程

ps：这个只能适用于6b模型，不适用与量化，对量化模型训练则会报错

RuntimeError: Only Tensors of floating point and complex dtype can require gradients

有位大佬提出了问题所在，期待大佬的解决方法

数据集我用这位大佬的

一些其他数据集：

https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M/tree/main

https://github.com/LianjiaTech/BELLE/tree/main/data/10M

https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M

https://github.com/carbonz0/alpaca-chinese-dataset

一些其他问题

1、检查`Nvidia`&`Cuda`版本无显示、报错 `NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver`

解决方法：

移除之前的所有依赖

apt-get purge nvidia-*
apt-get update
apt-get autoremove

查找合适的nvidia-driver版本安装

进入nvidia官网，根据型号查询合适的版本

运行指令，查询nvidia-driver版本

ubuntu-driver devices
# 或
apt search nvidia-driver

根据上面查到的版本选择安装，也可以选择兼容的

# 安装驱动
sudo apt install libnvidia-common-530
sudo apt-get -y install libnvidia-gl-530
sudo apt install nvidia-driver-530

然后重启

reboot

检查是否安装成功

nvidia-smi

各项属性说明（参考）

2、`Torch not compiled with CUDA enabled`

pip install torch==1.5.0+cu101 torchvision==0.6.0+cu101 -f https://download.pytorch.org/whl/torch_stable.html

参考：https://aitechtogether.com/ai-question/9384.html

3、`RuntimeError: Library cudart is not initialized`

原因：缺少或损坏的 CUDA 库文件

解决：

# 重新安装
apt install nvidia-cuda-toolkit

想吃蛋挞¤☜

关注

29
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ChatGLM-6B-int4模型部署

ChatGLM-6B-int4模型部署

一、本地服务器部署ChatGLM-6B-int4模型

1、配置虚拟环境

安装conda

激活环境

安装gcc

2、本地服务器部署

安装git

克隆ChatGLM-6B项目

安装依赖

选择模型

克隆模型

修改模型路径

部署完成，测试运行

3、微调

P-Tuning v2

LoRA

一些其他问题

1、检查Nvidia&Cuda版本无显示、报错 NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver

2、Torch not compiled with CUDA enabled

3、RuntimeError: Library cudart is not initialized

安装`gcc`

安装`git`

克隆`ChatGLM-6B`项目

1、检查`Nvidia`&`Cuda`版本无显示、报错 `NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver`

2、`Torch not compiled with CUDA enabled`

3、`RuntimeError: Library cudart is not initialized`