从头开始微调Llama 3.1模型

最新推荐文章于 2024-09-05 09:20:15 发布

Python编程杰哥

最新推荐文章于 2024-09-05 09:20:15 发布

阅读量1k

点赞数 22

文章标签： llama 深度学习人工智能百度 oracle 数据库知识图谱

本文链接：https://blog.csdn.net/xx_nm98/article/details/141001868

版权

在今天的科技专栏中，我们将深入探讨如何微调Llama 3.1模型，以使其更好地适应您的特定领域数据。微调大型语言模型（如Llama）的主要目的是为了在特定领域的数据上表现更好，从而生成更符合您需求的输出。以下是我们将要介绍的五个主要步骤：

安装必要的软件包
准备数据集
训练模型
进行推理
保存模型

第一步：安装必要的软件包

首先，我们需要安装一些必要的软件包unsloth和torch，我们将使用它来训练模型，以及accelerate和bitsandbytes等其他工具。值得一提的是，我们使用的是Google Colab提供的免费T4 GPU，这意味着您可以在无需花费任何费用的情况下训练您的模型，这无疑是一个很棒的功能。

!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"  
!pip install --no-deps "trl<0.9.0" peft accelerate bitsandbytes

第二步：准备数据集

在这一部分，我们将加载并准备我们的Llama 3.1模型。首先，我们需要导入必要的软件包，如UNS sloth和torch，并设置最大序列长度、数据类型等参数。

import unsloth import FastLanguageModel  
import torch  
  
max_sequence_length = 2048  
dtype = None  
load_in_4bit = True

接下来，我们将从UNS sloth加载模型，并使用Laura技术来只更新1%到10%的参数。这样做的好处是能够更高效地进行训练。

model,tokenizer = FastLanguageModel.from_pretrained(  
    model_name="unsloth/Meta-Llama-3.1-8B",  
    max_seq_length = max_sequence_length ,  
    dtype = dtype,  
    load_in_4bit = load_in_4bit  
)

第三步：训练模型

现在我们已经准备好了数据集，可以开始训练模型了。在这一步中，我们将配置训练参数，并使用Alpaca数据集来进行训练。

from datasets import load_dataset  
  
data = load_dataset('alpaca', split='train')  
data = data.rename_column('output', 'response')

接下来，我们将配置训练参数，并开始训练模型。

from transformers import Trainer, TrainingArguments  
  
training_args = TrainingArguments(  
    output_dir='./results',  
    num_train_epochs=3,  
    per_device_train_batch_size=8,  
    save_steps=10_000,  
    save_total_limit=2,  
)  
  
trainer = Trainer(  
    model=model,  
    args=training_args,  
    train_dataset=data,  
)  
  
trainer.train()

训练完成后，我们可以查看训练的内存和时间统计信息。

print(trainer.state.log_history)

第四步：进行推理

训练完成后，我们可以进行推理。首先，我们需要加载模型并对输入进行标记化处理。然后，我们将生成模型的输出。

from transformers import pipeline  
  
inference_pipeline = pipeline('text-generation', model=model)  
input_text = "请介绍一下Llama 3.1模型的应用场景。"  
outputs = inference_pipeline(input_text)  
  
for i, output in enumerate(outputs):  
    print(f"Output {i+1}: {output['generated_text']}")

此外，我们还可以使用Hugging Face的新功能——TextStreamer进行实时流式输出，这样我们就无需等待最终结果。

from transformers import TextStreamer  
  
streamer = TextStreamer(model=model)  
input_text = "请介绍一下Llama 3.1模型的应用场景。"  
streamer(input_text)

第五步：保存模型

最后，我们需要保存已经训练好的模型。最好的方法是将其推送到Hugging Face Hub，这样就可以随时访问和使用模型。

model.save_pretrained('path_to_your_model')  
tokenizer.save_pretrained('path_to_your_tokenizer')  
  
from huggingface_hub import HfApi  
  
api = HfApi()  
api.upload_folder(  
    folder_path='path_to_your_model',  
    path_in_repo='your_repo_name',  
    repo_id='your_username/your_repo_name',  
    token='your_huggingface_token'

如果您希望以不同的格式（如16位、4位或更低的适配器）保存模型，也可以进行相应的配置。

总结

通过以上五个步骤，我们已经完成了Llama 3.1模型的微调。从安装必要的软件包到准备数据集，再到训练模型、进行推理，最后是保存模型，每一步都至关重要。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述