MLU370运行glm4-9b-chat，30秒跑通！

最新推荐文章于 2024-09-15 17:22:56 发布

小军军军军军军

最新推荐文章于 2024-09-15 17:22:56 发布

阅读量277

点赞数 3

分类专栏：寒武纪大模型编程应用文章标签：人工智能深度学习 langchain pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaojunjun200211/article/details/140919471

版权

寒武纪同时被 3 个专栏收录

12 篇文章 8 订阅

订阅专栏

11 篇文章 1 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

文章目录

一、paas平台环境配置
二、环境准备
三、模型下载
四、代码准备

一、paas平台环境配置

1.MLU370-M8
驱动：选择5.10.22以上【建议5.10.29】
在这里插入图片描述

二、环境准备

pip install transformers==4.42.0 accelerate==0.30.1 tiktoken

三、模型下载

继续使用魔搭社区快速下载

git-lfs clone https://www.modelscope.cn/zhipuai/glm-4-9b-chat.git

四、代码准备

import torch
import torch_mlu
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "mlu"

tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat",trust_remote_code=True)

query = "你好"

inputs = tokenizer.apply_chat_template([{"role": "user", "content": query}],
                                       add_generation_prompt=True,
                                       tokenize=True,
                                       return_tensors="pt",
                                       return_dict=True
                                       )

inputs = inputs.to(device)
model = AutoModelForCausalLM.from_pretrained(
    "THUDM/glm-4-9b-chat",
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
    trust_remote_code=True
).to(device).eval()

gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

记得把模型路径修改成自己的模型路径

直接运行
在这里插入图片描述

小军军军军军军

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小军军军军军军 CSDN认证博客专家 CSDN认证企业博客

码龄5年

25: 原创

50万+: 周排名

4万+: 总排名

4万+: 访问

: 等级

515: 积分

206: 粉丝

198: 获赞

72: 评论

505: 收藏

私信

关注

热门文章

分类专栏

最新评论

MLU370运行glm4-9b-chat，30秒跑通！
小军军军军军军: 对的，你可以参考我之前的glm3改法，需要注释掉5行代码
MLU370运行glm4-9b-chat，30秒跑通！
qiu h_h: 您好，按照您的方法进行了相关操作，但是在最后还是出现了Notimplementederror:unknown device for graph fuser，请问是需要修改基模的代码吗？期待您的回复，谢谢
MLU370-M8 快速跑通 llama3-8B
笑傲江湖的小白: 请问我执行时，提示如下错误： Traceback (most recent call last): File "/root/run_llama3_mlu.py", line 11, in <module> model = AutoModelForCausalLM.from_pretrained( File "/root/transformers_mlu/src/transformers/models/auto/auto_factory.py", line 561, in from_pretrained return model_class.from_pretrained( File "/root/transformers_mlu/src/transformers/modeling_utils.py", line 3503, in from_pretrained ) = cls._load_pretrained_model( File "/root/transformers_mlu/src/transformers/modeling_utils.py", line 3904, in _load_pretrained_model state_dict = load_state_dict(shard_file) File "/root/transformers_mlu/src/transformers/modeling_utils.py", line 506, in load_state_dict with safe_open(checkpoint_file, framework="pt") as f: safetensors_rust.SafetensorError: Error while deserializing header: HeaderTooLarge 请问大佬如何解决呢？
MLU370-M8 快速跑通 llama3-8B
小军军军军军军: 报错截全，你这是在nv平台吗
MLU370-M8 快速跑通 llama3-8B
huafeng88: 大佬，请问，为啥运行代码报错： [code=csharp] Loading checkpoint shards: 0%| | 0/4 [00:00<?, ?it/s] Traceback (most recent call last): File "/home/zouguoqiang/llama3/test_model.py", line 4, in <module> pipeline = transformers.pipeline( File "/home/zouguoqiang/miniconda3/envs/myenv/lib/python3.10/site-packages/transformers/pipelines/__init__.py", line 895, in pipeline framework, model = infer_framework_load_model( File "/home/zouguoqiang/miniconda3/envs/myenv/lib/python3.10/site-packages/transformers/pipelines/base.py", line 283, in infer_framework_load_model model = model_class.from_pretrained(model, **kwargs) File "/home/zouguoqiang/miniconda3/envs/myenv/lib/python3.10/site-packages/transformers/models/auto/auto_factory.py", line 564, in from_pretrained return model_class.from_pretrained( File "/home/zouguoqiang/miniconda3/envs/myenv/lib/python3.10/site-packages/tran [/code]

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。