【Llama3.1-8B-Instruct】Llama Factory 等部署实战

最新推荐文章于 2024-09-12 20:19:42 发布

weixin_52103117

最新推荐文章于 2024-09-12 20:19:42 发布

阅读量2.1k

点赞数 51

文章标签： llama 云计算 AIGC python 语言模型开源人工智能

本文链接：https://blog.csdn.net/weixin_52103117/article/details/141331683

版权

一、模型介绍

Meta Llama 3.1 系列是一个多语言大型语言模型 (LLM) 集合，包括 8B、70B 和 405B 三种尺寸（文本输入/文本输出）。Llama 3.1 的指令调优版本（8B、70B、405B）针对多语言对话用例进行了优化，并在常见的行业基准测试中超越了许多现有的开源和闭源聊天模型。
Llama 3.1 支持多种语言，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。它在多语言任务中表现出色，并具有增强的推理、数学和代码执行能力。这使其适用于从文本生成到更具体任务（如数学问题解决和代码辅助）的广泛应用。

1.1模型架构

Llama 3.1 是一个自回归语言模型，采用了优化的 Transformer 架构。调优版本使用监督式微调（SFT）和基于人类反馈的强化学习（RLHF）来调整模型以更加符合人类对有效性和安全性的偏好。

1.2官方链接

官方链接：https://github.com/meta-llama/llama
更多技术信息github：https://github.com/meta-llama/llama-recipes
Huggingface链接：https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct

二、基础用法

2.1 启动项目

进入后，选择“项目”，找到名为“【Meta-Llama-3.1-8B-Instruct】部署实战（包括transformers、原始 llama 库和 LlamaFactory 部署）”的项目，打开项目

运行一下

之后2个自动跳出的选项都默认点确定，注意空间内不能有重名的项目

等待环境克隆完成后，网页会跳出项目推荐使用的算力规格，建议使用项目推荐的算力，此处直接点确定，之后点击启动开发环境

双击点击左侧目录里的“项目简介”，后续操作可以根据“项目简介”里的指南来操作

2.2 Transformers使用（基础推理）

直接运行2.2的代码框，等待大约3分钟后会输出推理结果。若要反复运行建议把原有代码段中的message后代码剪切到下一段落（如下图所示），这样在第1遍运行之后，秩序运行message所在代码框，节省时间

2.3 原始的 llama 库使用

直接在Jupyter Notebook里运行下面代码：

!cd llama3 && \
pip install -e .

运行完毕，结果如下：

切换到终端

在终端里输入下面代码：

torchrun --nproc_per_node 1 --master_port='6006'  run.py --ckpt_dir /gemini/pretrain/original    --tokenizer_path /gemini/pretrain/original/tokenizer.model --max_seq_len 512 --max_batch_size 6

运行完毕后，即可开始对话