预指令调优(PIT):提升大模型吸收知识的能力

人工智能咨询培训老师叶梓 转载标明出处

大模型(LLM)通过大规模预训练存储了大量事实知识,但这些知识是静态的,随着发展可能会变得过时。为了保持LLM的时效性,常见的做法是在新文档上继续预训练,以更新模型参数中的知识库。然而,现有的训练方法存在一个“困惑度诅咒”(perplexity curse)现象:即使文档的困惑度被最小化,模型在回答问题时仍然存在局限性。来自 Meta FAIR 实验室、卡内基梅隆大学和华盛顿大学的研究团队提出了一种新的方法——预指令调优(PIT),以提升LLMs从新文档中吸收知识的能力。

持续预训练、持续预训练后跟指导调整,以及在持续预训练之前进行预指导调整的过程,并展示了它们在评估问题上的准确率

构建数据集

为了衡量大模型(LLMs)从新文档中学习知识的能力,研究者创建了Wiki2023数据集。这个数据集精心挑选了Wikipedia中标记为“2023”类别的文章,这些文章涉及电影、艺术、经济、政治和事件等多样主题。选择这些文章的原因是,它们提供的信息很可能不在模型的原始预训练语料库中,这一点从表格1中低QA表现可以看出,对于7B和70B模型,QA的准确率分别是9.5%和17.2%。

为了提高训练效率,研究者只采用了每篇文章的首段,这些段落通常包含文章的全面摘要和众多事实陈述。如图2所示,研究者展示了文档和QA对的数量,以及问题中频繁出现的关键词。图3提供了“奥本海默”相关文档和问答对的示例,其中用于计算损失的标记以绿色高亮显示。

Wiki2023数据集的问答对是通过使用现有的大型语言模型,根据文章内容生成多样化的问题和答案。平均每篇文章生成了4.93个问题,这些问题和答案用于后续的指令调优或性能评估。

研究者还对数据集进行了划分,选择了电影领域作为评估基准,并随机选取了256篇文章作为测试集(Wiki2023-film-test)。剩余的文章和相应的QA对用于研究不同的训练策略,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值