【小白教程】ARC a750本地运行glm-4-9b,运行效果
【小白教程】ARC a750本地运行glm-4-9b,运行效果
书接上回:
建议先看看上回的内容
这次下载了glm-4-9b在a750上运行试试
一、先下载模型
打开modelscope网站:https://www.modelscope.cn/models/ZhipuAI/glm-4-9b-chat-1m/files
modelscope相当于国内的Hugging Face。
全部下载
放到这里D:\AI\openvino-LLM\glm-4-9b-chat-1m,也可以根据自己情况更改路径
二、参考上回,用命令行运行
略
三、用vscode运行
命令行运行感觉不太顺手,改了下代码,通过vscode运行,改了原本的chat.py和convert.py, 先看效果,代码放在最后。
四、运行效果
1、int4量化
int4-CPU GIF动图
int4-GPU GIF动图
GPU整体速度比CPU快不少,int4量化优化效果很明显,但win10任务管理器性能显示GPU占用还是不高,a750显卡驱动显示GPU活动80%左右,看起来是系统识别显卡活动不太准。
2、int8量化
int8-CPU GIF动图
int8-GPU GIF动图
可以看到int8量化用GPU比CPU还要慢,尴尬了。。。CPU和GPU活动都没满,但是速度上不去
3、fp16
fp16-CPU GIF动图
CPU还能跑
fp16-GPU GIF动图
我去做了个饭,回来还没打开。。
感觉只是对int4量化进行了优化,其他的还不如在CPU上跑。
4、ollama
顺便用ollama也测试了下,