人工智能咨询培训老师叶梓 转载标明出处
大模型(LLM)通过大规模预训练存储了大量事实知识,但这些知识是静态的,随着发展可能会变得过时。为了保持LLM的时效性,常见的做法是在新文档上继续预训练,以更新模型参数中的知识库。然而,现有的训练方法存在一个“困惑度诅咒”(perplexity curse)现象:即使文档的困惑度被最小化,模型在回答问题时仍然存在局限性。来自 Meta FAIR 实验室、卡内基梅隆大学和华盛顿大学的研究团队提出了一种新的方法——预指令调优(PIT),以提升LLMs从新文档中吸收知识的能力。

构建数据集
为了衡量大模型(LLMs)从新文档中学习知识的能力,研究者创建了Wiki2023数据集。这个数据集精心挑选了Wikipedia中标记为“2023”类别的文章,这些文章涉及电影、艺术、经济、政治和事件等多样主题。选择这些文章的原因是,它们提供的信息很可能不在模型的原始预训练语料库中,这一点从表格1中低QA表现可以看出,对于7B和70B模型,QA的准确率分别是9.5%和17.2%。
为了提高训练效率,研究者只采用了每篇文章的首段,这些段落通常包含文章的全面摘要和众多事实陈述。如图2所示,研究者展示了文档和QA对的数量,以及问题中频繁出现的关键词。图3提供了“奥本海默”相关文档和问答对的示例,其中用于计算损失的标记以绿色高亮显示。
Wiki2023数据集的问答对是通过使用现有的大型语言模型,根据文章内容生成多样化的问题和答案。平均每篇文章生成了4.93个问题,这些问题和答案用于后续的指令调优或性能评估。
研究者还对数据集进行了划分,选择了电影领域作为评估基准,并随机选取了256篇文章作为测试集(Wiki2023-film-test)。剩余的文章和相应的QA对用于研究不同的训练策略,