大语言模型微调

最新推荐文章于 2024-09-17 16:52:57 发布

程序员二飞

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量1.1k

点赞数 24

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/xiangxueerfei/article/details/140070431

版权

本文介绍大语言模型的微调，包括全参数微调和使用LoRA的参数高效微调方法，采用HuggingFace实现，最后通过一个具体的证件关键信息提取实例对本文方法进行应用，当然也可以用到别的任务上去，使用的LLM是EleutherAI的pythia系列模型以及Llama3-8b（也可以使用其他模型）。

通过本文可以学习到：

如何准备微调大语言模型（LLM）的数据集、指令微调数据集格式
什么是tokenization以及如何使用tokenizer
如何批量加载数据
如何采用Huggingface的Transformers库实现LLM的全参数微调和LoRA高效微调
在资源有限的情况下如何使用bitsandbytes量化参数以便于微调较大的LLM

同时每部分都提供录制视频，通过notebook一行行敲代码实现，即使没有接触过LLM也没有任何难度。

预备知识

为了照顾初学者更加顺畅地理解后面内容，可以先了解一下几个预备知识：tokenization、嵌入层、pytorch中的Dataset和DataLoader，如果对这部分已经很熟悉了，可以直接跳过进入后续章节。

Tokenization

其作用是将文本分割成更小的单元，这些单元通常是单词、短语或符号，这个过程被称为分词（tokenization）。在不同的上下文中，Tokenizer可以有不同的形式和功能。

分词：将文本字符串分割成一系列的词元（tokens），词元可以是单词、短语、符号或其他语言单位。
词元化：是分词的过程，通过这个过程，文本被转换成一系列可以被计算机处理的词元。
词元：分词后得到的单个元素，是文本分析的基本单位。

下面这个视频演示了如何使用Huggingface的Transformers库进行Tokenize操作。

Dataset&DataLoader

pytorch提供了非常简便的数据处理方法，主要有Dataset、DataLoader（包括sampler、collate_fn等），其中Dataset类主要有三个方法：__init__、len__和__getitem__，分别用来初始化、计算数据集长度（可以调用len()）和取出给定索引的数据，只返回一个样本。

DataLoader获取给定batch size大小的数据，其中sampler定义采样策略，collate_fn实现batch数据的聚合和处理方式。通常情况下，只需要自定义Dataset，DataLoader使用默认设定即可，但本例在微调LLM时为了获取batch size大于1的批量数据需要修改一下collate_fn，主要有以下原因：

每条文本长度不一，通过tokenizer得到的token长度不一，如果批大小为1则没有问题，当batch size不为1时不同长度的张量无法垂直拼接。
虽然可以将每个tokenized后的张量填充到最大长度，但是会十分冗余。

解决方法就是，Dataset返回原始文本，通过collate_fn对整批文本进行tokenize操作，填充到当前batch的最大长度，大部分batch的最大长度是小于整体最大长度的。

下面视频演示Dataset、DataLoader的应用，以及如何通过自定义collate_fn函数实现批量操作。

Embedding/嵌入层

嵌入层接受的输入张量大小为(B, T)，其中B是批大小，T是步长，也就是序列长度，这也是通过tokenize之后得到的格式；通过嵌入层（embedding）得到的张量大小为（B, T, Emb_size），即将用一个整数表示的token转换为长度为Emb_size的向量，比如下面这个模型中Embedding层的词典大小为50304，向量长度为1024。

下图是Llama 3 8b的模型结构：

下面的视频演示了Embedding层的输入输出数据的大小。

全量参数微调

本节介绍如何使用Transformers的Trainer进行大语言模型全量参数的微调，Pythia系列模型参数量从14M到12B（如下图），可以先在少量参数的模型上进行调试，代码没有问题再切换为更大的模型，非常方便扩展和探索性开发。

首先看一下数据集格式，用于LLM指令微调的数据集与预训练数据集不一样，指令微调需要输入输出或者提问和回答的格式。比如本文方法应用于证件关键信息提取的任务上，输入文本是通过OCR得到的文本框和文本内容，输出结果是JSON格式，通过Jsonlines进行存储，每一行是一个字典，定义了输入和输出。

jsonl格式文件可以通过jsonlines操作。

也可以直接通过json进行操作。

同时可以提供指令模板，将输入和输出嵌入其中，如下图是在KIE中的例子：

最后的text就是模型的输入文本了。

训练采用HuggingFace的Transformers库，通过TrainingArguments指定训练参数，实例化Trainer就可以调用train进行训练，极大的方便。也可以使用trl库的SFTTrainer，SFTTrainer是专门为监督学习微调模型设计的，继承自Trainer。关于两者的区别如下图：