一文搞懂大模型预训练PT与有监督微调SFT-CSDN博客

本文链接：https://blog.csdn.net/z551646/article/details/141349767

在理解LLM预训练和微调的原理之前，我们先解释三个基础概念。

「Token」：在自然语言处理中，一个“token”是语言的基本单位，它可以是一个词、一个字或一个标点符号。例如，句子“我喜欢冬天”被切分为3个tokens：“我”、“喜欢”、“冬天”。

「Prediction」：预测是指模型基于当前输入序列预测下一个可能出现的token。这是语言模型的核心任务之一。

「Train」：训练则是指模型逐渐学会识别和预测文本中的模式的过程。例如在“我喜欢X”的模式中，模型会观察到“我喜欢”后面可能跟着许多不同的词，但有些词（如“你”、“北京”、“世界”）出现的频率更高。通过这种方式，模型不仅学会预测下一个词，还学会更深层次的语言结构和语义关系，这使得它在处理诸如文本生成、情感分析、机器翻译等NLP任务时更加有效。

要理解这一训练过程，最主要就是明白**「预训练的数据如何构造、数据怎么喂给模型、模型输出是是什么以及如何计算loss。」**

什么是token？

token是指文本中的一个词或者子词，给定一句文本，送入语言模型之前，首先对原始文本进行tokenize，也就是将一个文本序列拆分为离散的token序列。

tokenize是在大量未标注的文本数据上进行训练，创建一个固定的词表，这个词表包含了模型能够理解和操作的所有tokens。

tokenizer将文本转换为tokens序列之后，下来就是词嵌入，将每个token转换为其对应的向量表示，捕捉token的语义和上下文信息，使得模型能够在数学空间中进行计算和推理。

我们知道文本序列是有顺序的，而常见的语言模型都是基于self-attention机制的Transformer结构，而自注意力机制本身并未考虑序列中元素相对位置信息，因为需要手动加上位置编码，也就是每个token位置有个位置嵌入，与对应位置的token embedding相加。

模型训练或推理阶段经常会出现Context Length这个术语，这是指模型在一次前向传播中能够有效处理的token序列的最大长度，在训练阶段，如果模型只学习了较短的序列的位置embedding，那模型在推理阶段就不能适用于较长文本。

预训练Pre-train

输入序列经过token embedding和位置embedding处理后，会形成一个融合了词义信息和位置信息的嵌入向量序列，进而送入Decoder-only架构的Transformer模型中。

Transformer模型会为每个输入token生成一个输出embedding，这个输出embedding包含了丰富的上下文信息，可用于预测序列中的下一个token。这个过程也可以当作一个分类问题看待，具体如下：

线性层映射：输出embedding通过一个线性层，其输出维度等于词表大小。这个线性层实际上是一个矩阵乘法，将每个token的embedding映射到一个与词表大小相同的向量上。这个向量中的每个元素可以看做是下一个token输入词表中相应类别的原始分数。
Softmax变换：为了将这些原始分数转化为概率分布，需要应用Softmax函数。Softmax函数将每个元素转换为概率值，并确保所有概率值之和为1。
训练：在训练阶段，最大化概率使得它能够预测真实的下一个token。
推理：在推理阶段，模型根据最后一个生成token的输出概率分布采样下一个token。

在训练阶段，decoder-only架构的Transformer模型利用因果自注意力（Causal Self-Attention）机制，能够一次性对整个输入序列的每个位置的token预测其下一个token，并计算所有位置token的损失。

下面通过一个完整的例子介绍这个过程。假设有一个预训练数据集，

❝

你知道什么是预训练吗？

❞

假设经过tokenize后文本分成token：

你：2  
知道: 5  
什么：6  
是:1  
预训练:8  
吗:7  
？:6

原来的数据变为如下序列，后面补了三个0（假设我们希望最大序列长度是10）。

❝

2 5 6 1 8 7 6 0 0 0

❞

预测下一个token就类似于2预测5，2、5预测6，…，以此类推，但是这样拆成很多歌数据段比较低效，「因此可以考虑使用移位构造数据。」

即：

输入X：2 5 6 1 8 7 6 0 0 0
输出targets：5 6 1 8 7 6 0 0 0

这样就可以一次性把整条序列喂给模型，计算一次就包含了6个预测下一个token的损失了。这里模型的设计理念是：不能让输入看到后面的词（如果看得到的话就没必要进行预测了），也就是“你”在模型内看不到“知道”，“你知道”在模型内看不到“什么”，这个可以通过注意力机制实现。

通过移位构造的输入序列维度是(1,10)，其中1代表批量大小（这里为单样本训练），10代表序列长度。经过Embedding层后，数据形状变为(1,10,768)，这里假设词嵌入维度是768。

再利用Transformer处理，Transformer接收嵌入向量作为输入，且是一个黑盒，其输出的形状保持不变，即仍为(1,10,768)。

为了将Transformer的输出转化为词表大小的分类概率分布，引入一个线性层（全连接层）：

output_layer = nn.Linear(768, vocab_size, bias=False)

其中vocab_size是词汇表的大小。应用这个线性变换后，得到的logits形状为(1, 10, vocab_size)，这意味着对于序列中的每个位置，模型都给出了一个关于词表中每个词的概率分布。

最后，通过交叉熵损失函数F.cross_entropy计算模型预测的logits与真实的targets之间的交叉熵损失loss，并通过ignore_index=0参数指定忽略填充位置（值为0）的损失，避免它们影响模型的学习。

loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1), ignore_index=0)

有监督微调Supervised fine-tuning

有监督微调SFT即是指在预训练好的LLM基础上，利用带有明确标签的（supervised）数据集来进一步训练模型，使之能够执行特定的下游任务。

「通常LLM的PT过程是无监督的，Fine-tuning过程是有监督的。」

SFT时，模型权重会根据与真实标签的差异进行调整。通过这个微调过程，模型能够捕捉到标签数据中特定于某一任务的模式和特点，使得模型更加精确，更好地适应某一特定任务。

举个简单的例子，有个已经训练好的LLM，当输入“I can’t log into my account.What should I do?”时，它可能简单地回答：“Try to reset your password using the ‘Forgot password’ option.”

这个回答很直接，适用于一般问题，但如果是客服场景，可能就不太合适了。一个好的客服回答应该更有同情心，并且可能不会这么直接，甚至可能包含联系信息或其他细节。这时候，有监督微调就显得非常重要了。

经过有监督微调后，模型可以提供更加符合特定指导原则的答案。当输入“I can’t log into my account.What should I do?”时，可能会回答“I’m sorry to hear you’re having trouble logging in. You can try resetting your password using the ‘Forgot password’ option on the login page.”

理解了SFT的基本概念后，我们再从数据构造到模型输出、计算loss步骤看一下SFT实现原理。

SFT每条样本由两部分组成——提示(prompt)和答案（answer）。例如，

prompt: 翻译以下句子: What is Supervised fine-tuning  
answer: 什么是有监督微调

它的本质其实也是预测下一个token，只是我们更希望模型关注answer部分的预测，这可以通过生成一个mask向量屏蔽不希望计算loss的部分，下面就是数据构造的一个示意：

将prompt和answer拼接起来，并在answer前后分别添加开始（[bos]）和结束（[eos]）标记。
计算prompt/instruction的长度，以及后面需要填充的长度。
生成一个向量mask，其中answer部分为1，其它部分为0，以此来指示模型仅关注答案部分的预测损失。

input_id=prompt+[bos]+answer+[eos]  
context_length = input_id.index(bos)  
mask_position = context_length - 1  
pad_len = max_length - len(input_id)  
input_id = input_id + [pad] * pad_len  
loss_mask = [0]*context_length+[1]*(len(input_id[mask_position+1:])) + [0]*pad_len

将构造好的input_id转为词嵌入embedding，经过Transformer模型处理，输出维度依然是(1,10,vocab_size)，

logits=output_layer(transformer(X))

进一步就可以计算answer部分的loss了，其实就是通过mask把不希望考虑的地方乘以0，保留answer部分loss。

loss_mask = loss_mask.view(-1)  
loss = torch.sum(loss*loss_mask)/loss_mask.s

有了loss，进行反向传播更新模型参数就OK。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓