让cpu高速运行chatglm

最新推荐文章于 2024-04-13 11:25:17 发布

景烘

最新推荐文章于 2024-04-13 11:25:17 发布

阅读量292

点赞数

文章标签： python 机器学习深度学习神经网络自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53195407/article/details/133701475

版权

#通过intel发布的bigDL,可以用cpu运行chatglm2

, #操作步骤：

#1.conda create -n inthj python==3.9

#2.conda activate inthj

#3.cd inthj

#4.pip install --pre --upgrade bigdl-llm[all]

#5.进入chatglm2的cli_demo.py文件

#6.把from transformers import AutoTokenizer, AutoModel

#改成from bigdl.llm.transformers import AutoModel

#from transformers import AutoTokenizer

#7.把model = AutoModel.from_pretrained("你的路径",trust_remote_code=True).float()

#改成model = AutoModel.from_pretrained("你的路径",load_in_4bit=True,trust_remote_code=True).float()

#8.然后你就看见你的大模型在CPU下飞快的运转了

源代码

import os

import platform

import signal

#from transformers import AutoTokenizer, AutoModel

#import readline

import torch

import time

import argparse

import numpy as np

from bigdl.llm.transformers import AutoModel

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("D:\\c-glm\\ChatGLM2-6B", trust_remote_code=True)

model = AutoModel.from_pretrained("D:\\c-glm\\ChatGLM2-6B", load_in_4bit=True,trust_remote_code=True)#.float()#.cuda()

# 多显卡支持，使用下面两行代替上面一行，将num_gpus改为你实际的显卡数量

# from utils import load_model_on_gpus

# model = load_model_on_gpus("THUDM/chatglm2-6b", num_gpus=2)

model = model.eval()

os_name = platform.system()

clear_command = 'cls' if os_name == 'Windows' else 'clear'

stop_stream = False

def build_prompt(history):

prompt = "欢迎使用 ChatGLM2-6B 模型，输入内容即可进行对话，clear 清空对话历史，stop 终止程序"

for query, response in history:

prompt += f"\n\n用户：{query}"

prompt += f"\n\nChatGLM2-6B：{response}"

return prompt

def signal_handler(signal, frame):

global stop_stream

stop_stream = True

def main():

past_key_values, history = None, []

global stop_stream

print("欢迎使用 ChatGLM2-6B 模型，输入内容即可进行对话，clear 清空对话历史，stop 终止程序")

while True:

query = input("\n用户：")

if query.strip() == "stop":

break

if query.strip() == "clear":

past_key_values, history = None, []

os.system(clear_command)

print("欢迎使用 ChatGLM2-6B 模型，输入内容即可进行对话，clear 清空对话历史，stop 终止程序")

continue

print("\nChatGLM：", end="")

current_length = 0

for response, history, past_key_values in model.stream_chat(tokenizer, query, history=history,

past_key_values=past_key_values,

return_past_key_values=True):

if stop_stream:

stop_stream = False

break

else:

print(response[current_length:], end="", flush=True)

current_length = len(response)

print("")

if __name__ == "__main__":

main()

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
让cpu高速运行chatglm

改成model = AutoModel.from_pretrained("你的路径",load_in_4bit=True,trust_remote_code=True).float()#7.把model = AutoModel.from_pretrained("你的路径",trust_remote_code=True).float()print("欢迎使用 ChatGLM2-6B 模型，输入内容即可进行对话，clear 清空对话历史，stop 终止程序")query = input("\n用户：")
复制链接

扫一扫

景烘 CSDN认证博客专家 CSDN认证企业博客

码龄4年

3: 原创

206万+: 周排名

30万+: 总排名

3031: 访问

: 等级

30: 积分

0: 粉丝

0: 获赞

0: 评论

8: 收藏

私信

关注

热门文章

最新评论

让cpu高速运行chatglm
CSDN-Ada助手: 非常感谢作者分享关于让cpu高速运行chatglm的经验！持续创作是非常了不起的，希望作者能继续分享更多关于cpu高速运行的技巧和经验。也许下一篇博客可以深入探讨如何优化cpu性能，或者分享一些实用的cpu运行技巧，期待作者的精彩创作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。