chatglm+tesla m40低成本部署


本机配置 i5 13600k ,主板是微星760 bomer

tesla m40安装

Tesla M40 24G实际上是计算卡,不是显卡,所以必须有核显或亮机卡
注意安装M40等大于4G显存显卡前,一定要去BIOS里打开大于4G选项,不然无法正确识别显卡。
(微星760 bomer 在BIOS里setting里)

BIOS设置

我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

  1. Above 4G memory/Crypto Currency mining 功能开启
    需要在BIOS中将这一项开启,目的是获得对4G以上显存卡的支持。
    Above 4G memory/Crypto Currency mining [允许]
  2. BIOS UEFI 模式开启
    使用该显卡需要开启主板BIOS的UEFI模式
    BIOS UEFI/CSM Mode [UEFI]

驱动下载并安装

安装前检查是否"设备管理器"中是否己经识别出tesla m40 ,如下图
在这里插入图片描述
https://www.nvidia.cn/Download/index.aspx?lang=cn
在这里插入图片描述在这里插入图片描述选择最新的驱动程序下载并安装。

验证安装并切换WDDM模式

验证安装
“CMD命令提示符”工具中,输入nvidia-smi,查看现有显卡信息,如图所示
在这里插入图片描述
切换WDDM模式
使用“以管理员身份运行”的模式打开“CMD命令提示符”工具,输入 nvidia-smi -dm 0
在这里插入图片描述

chatglm安装

ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上.

环境安装

1、下载本仓库:
git clone https://github.com/THUDM/ChatGLM2-6B
cd ChatGLM2-6B
2、pip 安装依赖:
pip install -r requirements.txt

加载模型

1、安装Git LFS
https://docs.github.com/zh/repositories/working-with-files/managing-large-files/installing-git-large-file-storage
在这里插入图片描述

CUDA安装

查询显卡驱动程序版本
在这里插入图片描述
CUDA具体的版本,如下
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
在这里插入图片描述
Windows下安装CUDA,参考如下(一个是cuda安装,另一个是CuDNN安装
https://blog.csdn.net/weixin_34409703/article/details/93226830

Torch安装

如果出现 torch的安装报错,可能与操作系统及 CUDA 的版本相关。直接上pytorch 的官网
https://pytorch.org/get-started/locally/
注意,tesla m40驱动可以安装最新版本,而CUDA只选11.8(CUDA 12版本以上会报错)
在这里插入图片描述
复制并执行以下指令
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

源码修改

在这里插入图片描述
在E:\open_code\ChatGLM2-6B\chatglm2-6b-project\web_demo.py
tokenizer = AutoTokenizer.from_pretrained(“THUDM/chatglm2-6b”, trust_remote_code=True)
model = AutoModel.from_pretrained(“THUDM/chatglm2-6b”, trust_remote_code=True).cuda()
修改为如下相对地址:
toenizer = AutoTokenizer.from_pretrained(“…\…\chatglm2-6b-model\chatglm2-6b”, trust_remote_code=True)
model = AutoModel.from_pretrained(“…\…\chatglm2-6b-model\chatglm2-6b”, trust_remote_code=True).quantize(8).half().cuda()
或修改成绝对地址:
toenizer = AutoTokenizer.from_pretrained(“E:\open_code\ChatGLM2-6B\chatglm2-6b-model\chatglm2-6b”, trust_remote_code=True)
model = AutoModel.from_pretrained(“E:\open_code\ChatGLM2-6B\chatglm2-6b-model\chatglm2-6b”, trust_remote_code=True).quantize(8).half().cuda()

成功结果展示

python web_demo.py

在这里插入图片描述

常见问题

1、错误Torch not compiled with CUDA enabled解决
在这里插入图片描述
把以下代码运行一下
import torch
print(torch.version)

print(torch.cuda.is_available())
在这里插入图片描述
如果torch.cuda.is_available()返回False,那就是安装了torch cpu版本或显卡不是Nvidia英伟达的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值