【小白教程】ARC a750本地运行glm-4-9b

【小白教程】ARC a750本地运行glm-4-9b,运行效果

书接上回:

建议先看看上回的内容

这次下载了glm-4-9b在a750上运行试试

一、先下载模型

打开modelscope网站:https://www.modelscope.cn/models/ZhipuAI/glm-4-9b-chat-1m/files
modelscope相当于国内的Hugging Face。

全部下载
在这里插入图片描述
放到这里D:\AI\openvino-LLM\glm-4-9b-chat-1m,也可以根据自己情况更改路径

二、参考上回,用命令行运行

三、用vscode运行

命令行运行感觉不太顺手,改了下代码,通过vscode运行,改了原本的chat.py和convert.py, 先看效果,代码放在最后。

四、运行效果

1、int4量化

int4-CPU GIF动图
在这里插入图片描述

int4-GPU GIF动图
在这里插入图片描述

GPU整体速度比CPU快不少,int4量化优化效果很明显,但win10任务管理器性能显示GPU占用还是不高,a750显卡驱动显示GPU活动80%左右,看起来是系统识别显卡活动不太准。

2、int8量化

int8-CPU GIF动图
在这里插入图片描述

int8-GPU GIF动图
在这里插入图片描述

可以看到int8量化用GPU比CPU还要慢,尴尬了。。。CPU和GPU活动都没满,但是速度上不去

3、fp16

fp16-CPU GIF动图

在这里插入图片描述

CPU还能跑

fp16-GPU GIF动图

在这里插入图片描述

我去做了个饭,回来还没打开。。

感觉只是对int4量化进行了优化,其他的还不如在CPU上跑。

4、ollama

顺便用ollama也测试了下,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值