Llama 3.1 70B 聊天部署

最新推荐文章于 2024-08-23 22:26:47 发布

weixin_52103117

最新推荐文章于 2024-08-23 22:26:47 发布

阅读量748

点赞数 7

文章标签： llama

本文链接：https://blog.csdn.net/weixin_52103117/article/details/141187110

版权

上一篇文章介绍了Llama 3.1 70B推理功能的使用，今天一看社区里那个项目又更新了聊天功能，试了一下比Transhformers推理好用的多

登录后还是进到社区界面，找到名为“Meta新开源【Llama3.1-70B-Instruct】聊天部署教程”的项目，点击打开

运行一下

跳出的的选项都默认点确定

等待克隆完成：

推荐的GPU默认点确定（立即运行）：

等待环境启动成功后，启动开发环境。开发环境启动成功后，双击打开页面左侧的项目简介：

下面操作可以参考Jupyter Notebook里的教程。

切换到终端，

输入下面的指令：

swift web-ui --host 0.0.0.0

运行完毕，出现下图所示的结果，点击右侧“端口”，再点击“添加端口”，注意不要直接点击划线出的链接，直接点点不开：

在添加端口界面，“内部端口”输入7860，是上一张图划线链接最后4位数字，“使用用途”随便输点，第1栏默认为“TCP”

之后复制生成的连接，打开：

点击“llama部署”，“选择模型”默认为“训练后的模型”，模型地址输入“/gemini/code/swift/examples/pytorch/llm/output/llama3_1-70b-instruct/v0-20240805-164838/checkpoint-500”

/gemini/code/swift/examples/pytorch/llm/output/llama3_1-70b-instruct/v0-20240805-164838/checkpoint-500

，选择GPU推荐把0、1、2、3都选上，切记不要选CPU

之后点击部署模型，再点击“展示部署状态”可查看部署进展

部署完毕

之后就可以在下面的“请输入”一栏中输入内容，再点击发送就可以开始聊天了，注意该模型是没有处理图片功能的，因此上传图片对话不可行。

该部分是独立于前几步的，可单独运行，直接运行2.2Transformers推理的代码框，即可输出推理结果（不建议使用，耗时长，第1遍大约25——30分钟）

和上1篇一样，Transformers推理运行完第1遍后，建议把这段拆成如图中所示的2段代码，这样想要重复使用Transformers推理的话，只需运行message所在代码框

关注