Llama 3.1 70B 聊天部署

上一篇文章介绍了Llama 3.1 70B推理功能的使用,今天一看社区里那个项目又更新了聊天功能,试了一下比Transhformers推理好用的多

一、启动项目

登录后还是进到社区界面,找到名为“Meta新开源【Llama3.1-70B-Instruct】聊天部署教程”的项目,点击打开

运行一下

跳出的的选项都默认点确定

等待克隆完成:

推荐的GPU默认点确定(立即运行):

二、运行项目

等待环境启动成功后,启动开发环境。开发环境启动成功后,双击打开页面左侧的项目简介:

下面操作可以参考Jupyter Notebook里的教程。

1、使用swift webui 进行聊天对话

切换到终端,

输入下面的指令:

swift web-ui --host 0.0.0.0

运行完毕,出现下图所示的结果,点击右侧“端口”,再点击“添加端口”,注意不要直接点击划线出的链接,直接点点不开:

在添加端口界面,“内部端口”输入7860,是上一张图划线链接最后4位数字,“使用用途”随便输点,第1栏默认为“TCP”

之后复制生成的连接,打开:

2、部署、使用模型

点击“llama部署”,“选择模型”默认为“训练后的模型”,模型地址输入“/gemini/code/swift/examples/pytorch/llm/output/llama3_1-70b-instruct/v0-20240805-164838/checkpoint-500”

/gemini/code/swift/examples/pytorch/llm/output/llama3_1-70b-instruct/v0-20240805-164838/checkpoint-500

,选择GPU推荐把0、1、2、3都选上,切记不要选CPU

之后点击部署模型,再点击“展示部署状态”可查看部署进展

部署完毕

之后就可以在下面的“请输入”一栏中输入内容,再点击发送就可以开始聊天了,注意该模型是没有处理图片功能的,因此上传图片对话不可行。

三、Transformers推理

该部分是独立于前几步的,可单独运行,直接运行2.2Transformers推理的代码框,即可输出推理结果(不建议使用,耗时长,第1遍大约25——30分钟)

和上1篇一样,Transformers推理运行完第1遍后,建议把这段拆成如图中所示的2段代码,这样想要重复使用Transformers推理的话,只需运行message所在代码框

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值