预指令调优(PIT):提升大模型吸收知识的能力

人工智能咨询培训老师叶梓 转载标明出处

大模型(LLM)通过大规模预训练存储了大量事实知识,但这些知识是静态的,随着发展可能会变得过时。为了保持LLM的时效性,常见的做法是在新文档上继续预训练,以更新模型参数中的知识库。然而,现有的训练方法存在一个“困惑度诅咒”(perplexity curse)现象:即使文档的困惑度被最小化,模型在回答问题时仍然存在局限性。来自 Meta FAIR 实验室、卡内基梅隆大学和华盛顿大学的研究团队提出了一种新的方法——预指令调优(PIT),以提升LLMs从新文档中吸收知识的能力。

持续预训练、持续预训练后跟指导调整,以及在持续预训练之前进行预指导调整的过程,并展示了它们在评估问题上的准确率

构建数据集

为了衡量大模型(LLMs)从新文档中学习知识的能力,研究者创建了Wiki2023数据集。这个数据集精心挑选了Wikipedia中标记为“2023”类别的文章,这些文章涉及电影、艺术、经济、政治和事件等多样主题。选择这些文章的原因是,它们提供的信息很可能不在模型的原始预训练语料库中,这一点从表格1中低QA表现可以看出,对于7B和70B模型,QA的准确率分别是9.5%和17.2%。

为了提高训练效率,研究者只采用了每篇文章的首段,这些段落通常包含文章的全面摘要和众多事实陈述。如图2所示,研究者展示了文档和QA对的数量,以及问题中频繁出现的关键词。图3提供了“奥本海默”相关文档和问答对的示例,其中用于计算损失的标记以绿色高亮显示。

Wiki2023数据集的问答对是通过使用现有的大型语言模型,根据文章内容生成多样化的问题和答案。平均每篇文章生成了4.93个问题,这些问题和答案用于后续的指令调优或性能评估。

研究者还对数据集进行了划分,选择了电影领域作为评估基准,并随机选取了256篇文章作为测试集(Wiki2023-film-test)。剩余的文章和相应的QA对用于研究不同的训练策略,即领域内设置。此外,研究者还训练模型在其他领域上,并在电影领域进行评估,以研究跨领域设置下不同方法的有效性。

但完全避免Wiki2023和Llama-2预训练语料库之间的事实重叠是困难的,也不是本研究的范围。例如,2023年上映的电影可能在之前就已经有相关信息。然而通过Wiki2023数据集,研究者能够测试和改进LLMs在持续知识获取方面的性能。

实验设置

实验的主要目标是在文档上训练模型时,通过在文档前添加一个<bos>标记,并计算所有文档标记上的标准下一个标记预测损失来训练模型。损失函数定义为,其中d代表文档,dt​是第t个标记,而d<t​表示第t个标记之前的所有标记。

对于问答对(QA pairs)的训练,研究者只计算答案标记上的负对数似然损失,给定问题作为前缀。损失函数定义为其中a是答案,q是问题。

在文档的预训练中,研究者使用了一个包含256个文档的小批量大小和一个初始学习率3×10−53×10−5。在QA对的指令调优中,他们使用了相同大小的256个QA对的小批量,但是选择了一个较小的初始学习率5×10−65×10−6,因为在单个小批量中用于计算损失的标记数量较少。

由于大多数答案相对较短,研究者使用精确匹配(Exact Match, EM)作为主要的评估指标。精确匹配衡量模型输出是否在规范化后(例如,去除文章和标点符号)与正确答案完全匹配。

为了评估更长的答案并适应轻微的词汇差异,研究者还报告了答案召回率(Answer Recall)和ROUGE-L。答案召回率衡量正确答案是否出现在模型的输出中,而ROUGE-L衡量模型输出和正确答案之间的最长公共子序列。

图4展示了论文中检查的不同实验设置。每一行代表一个独特的实验设置,并标有名称和编号。每个由右指的浅蓝色三角形突出显示的垂直部分表示一个训练阶段。所有设置中,模型都在测试QA上进行评估。当多个数据集被包含在一个虚线框内时,它们在训练过程中被混合在一起。

通过持续预训练后跟指令调优的方法

研究者进行了两种标准的实验设置来评估模型性能:

  • 持续预训练:在没有指令调优的情况下,直接在测试文档上训练模型(参见图4中的标记➀)。
  • 标准指令调优:在训练和测试文档上进行预训练,然后对训练集的问答对进行指令调优(参见图4中的标记➁)。

在指令调优中,研究者只进行了一个epoch的训练,因为更多的epoch通常会导致性能下降。对于文档的预训练,他们选择了多个epoch(对于7B/70B模型分别是10个和5个epoch),这有助于有效获取知识,并且对于适度大小的语料库来说是可行的。

原始Llama2模型的相对较低性能(7B/70B模型分别为9.5%/17.2%)表明,测试文档中的大部分知识在原始预训练语料库中并未包含。在文档上进行持续预训练后,性能提升到了27.2%/41.7%,这表明LLMs能够吸收一定量的知识。进一步的指令调优将性能提升到了30.3%/46.4%,证实了这种标准方法的有效性。然而,这与Zhu和Li(2023a)的研究结果不同,后者表明在随机初始化的类似GPT-2的变换器上,预训练后的指令调优是无效的。这种差异可能是由于Llama-2在多样化的语料库上进行了预训练,包括原始文档和问答数据,因此在通过问题提取参数中的知识方面已经发展了一定程度的熟练度。

研究者通过改变持续预训练的epoch数量(图5(a))和学习率(图5(b)),监测三个指标来研究训练动态:

  • 知识获取:通过精确匹配测试问题上的QA准确率来衡量。
  • 文档的困惑度:计算文档内所有标记的困惑度(PPL)。
  • 知识保持:通过在Natural Questions(NQ)数据集上的QA准确率来近似评估预训练期间累积的知识保持情况。

实验结果显示,随着困惑度接近1,QA准确率持续提高,表明事实知识学习需要在所有标记上进行详尽的损失最小化。这与学习一般技能不同,过度优化会导致过拟合。

在所有困惑度最小化的案例中,使用更多epoch或较大学习率训练的案例通常表现出更好的QA性能。研究者假设更积极的训练可以减少对文档中欺骗性模式的过拟合,并在回答问题时实现更好的泛化。

提高LLM从文档中吸收知识的能力

尽管通过标准的指令调优可以最小化文档的困惑度,但提取出的知识量仍然有限,这被称为“困惑度诅咒”。

研究者首先在继续文档预训练之前,对与主题相关的QA对进行指令调优(参见图4中的标记➄)。这种方法的直觉是,问题可以帮助LLMs识别关键类型的信息,使LLMs在后续文档的预训练中能够集中注意力于重要信息,即使这些问题并不直接与文档相关。例如,训练一个像“谁负责《奥本海默》的编辑工作”这样的问题,可以帮助LLMs在训练新文档如“芭比”时关注编剧。如表1所示,这种方法尤其在更大的LLMs上,比持续预训练表现得更好(7B/70B模型从27.6%/41.7%提高到28.6%/49.7%)。

第二种实现是顺序地对QA对和相关文档进行训练(参见图4中的标记➅),直觉是,如果在掌握了相关的简单QA对之后,再对复杂的文档进行训练,可以加强LLMs从文档中吸收知识的能力。例如,如果一个LLM已经学会了“詹妮弗·莱姆”是“谁负责《奥本海默》的编辑工作”的答案,那么在训练文档“编辑工作由詹妮弗·莱姆负责”时,可以更有效地细化其参数中知识存储。如表1所示,顺序PIT超过了仅QA变体和标准指令调优(7B/70B模型从30.3%/46.4%提高到32.5%/54.6%)。

PIT的有效性取决于在编码各自文档之前确保已经学会了相关的QA对。然而,研究者观察到,在文档训练(图4中的train doc)之后,对应问题(图4中的train QA)的准确率从几乎完美下降到30%,表明了严重的遗忘。为了解决这个问题,研究者同时训练了相关的QA对和文档(参见图4中的标记➆)。如表1所示,这显著提高了性能,超过了所有其他方法,包括混合所有数据的方法(图4中的标记➃),性能提升幅度很大(7B/70B模型从39.4%/57.1%提高到45.5%/62.7%)。

研究者首先研究了训练周期数对性能的影响。如表2所示,训练1个epoch是不够的,而3个、5个或10个epoch的性能相似。研究者将epoch数固定为3,并按照图6所示的顺序排列QA对和相应文档。交错排列在每个epoch中循环遍历所有数据3次,确保问题要么先于要么后于其相关文档出现。另一方面,分组排列将每个样本的3次出现聚集在一起,保证重复的问题要么在各自重复的文档之前要么之后。如表2所示,将QA对放置在相应文档之前在分组和交错排列中都能取得更好的性能,表明在PIT期间,学习机制优先考虑理解知识访问方式,然后是从更复杂和信息密集的文档中学习吸收信息。

基于此,研究者提出了一个改进的变体,称为pre-instruction-tuning++,它首先专门对QA对进行训练以理解知识访问模式,然后转向训练QA和文档数据的组合,以通过问题对齐知识访问和从文档中编码知识(参见图4中的标记➇)。如表2所示,PIT++显著优于PIT(从45.4%提高到48.1%),而训练QA数据后再混合(表2中的PIT--)并没有带来额外的好处。这加强了研究者的假设,即理解知识如何被访问有助于从文档中吸收知识,因此应该被优先考虑。

标准指令调优的一个缺点是,在QA对训练后可能会忘记测试文档中的知识(也称为“对齐税”)。为了证明标准指令调优的较低性能不是因为遗忘,研究者增加了一个设置,在指令调优期间混合训练QA和测试文档以防止遗忘(参见图4中的标记➂)。如表2所示,这并没有帮助,证实了研究者的假设。

消融研究中,在预训练文档时增加标记的权重以关注显著信息。研究者将1.0的权重分配给包含在答案中的文档中的标记(例如,在句子“编辑工作由詹妮弗·莱姆负责”中的“詹妮弗·莱姆”),并将0.5的较低权重分配给其他标记。如表2所示,这种加权持续预训练是无效的,证实了研究者的假设。

研究者通过在相同领域(Wiki2023-film)上的训练和评估来验证PIT的有效性。PIT能否使LLMs更好地从不同领域的文档中吸收知识?为此,研究者按照图2中概述的跨领域设置进行操作——在其他领域(Wiki2023-other-train)上训练并在电影领域(Wiki2023-film-test)上测试。标准指令调优和PIT在领域内和跨领域设置中的结果详细记录在表3中。即使它不如领域内对应物有效,跨领域PIT仍然显著优于指令调优,表明它可以跨不同领域泛化。这一发现为将这种方法扩展到更广泛的文档和指令,以实现更强大的泛化提供了可能性。

研究者还在另外两种场景中评估了PIT的有效性:(1) 应用于非Wikipedia文档时,(2) 解决真实用户提出的问题时。对于第一种场景,研究者采用在2023Wiki-other上用PIT训练的Llama-2 7B模型,并进一步在Zhu和Li(2023a)合成的传记(bioS)上进行训练。然后,研究者根据有关个人的问题进行评估。对于第二种场景,研究者使用Wiki2023-film-test中由LLMs生成的问题手动搜索Google,利用Google的“人们还问”功能收集了93个真实用户的类似问题,然后评估Llama-2 7B在这些问题上的表现。如表4所示,PIT在这两种场景中的性能都优于基线,证明了其泛化能力。

通过这些详细的实验和分析,研究者展示了PIT方法在改善LLMs从文档中吸收知识方面的潜力,并证明了其在不同领域和真实场景中的有效性。

论文链接:https://arxiv.org/abs/2402.12847

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值