预指令调优（PIT）：提升大模型吸收知识的能力

人工智能大模型讲师培训咨询叶梓

于 2024-08-12 02:45:00 发布

阅读量998

点赞数 31

文章标签：语言模型人工智能自然语言处理计算机视觉深度学习机器学习指令调优

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44292902/article/details/141070412

版权

人工智能咨询培训老师叶梓转载标明出处

大模型（LLM）通过大规模预训练存储了大量事实知识，但这些知识是静态的，随着发展可能会变得过时。为了保持LLM的时效性，常见的做法是在新文档上继续预训练，以更新模型参数中的知识库。然而，现有的训练方法存在一个“困惑度诅咒”（perplexity curse）现象：即使文档的困惑度被最小化，模型在回答问题时仍然存在局限性。来自 Meta FAIR 实验室、卡内基梅隆大学和华盛顿大学的研究团队提出了一种新的方法——预指令调优（PIT），以提升LLMs从新文档中吸收知识的能力。

持续预训练、持续预训练后跟指导调整，以及在持续预训练之前进行预指导调整的过程，并展示了它们在评估问题上的准确率

构建数据集

为了衡量大模型（LLMs）从新文档中学习知识的能力，研究者创建了Wiki2023数据集。这个数据集精心挑选了Wikipedia中标记为“2023”类别的文章，这些文章涉及电影、艺术、经济、政治和事件等多样主题。选择这些文章的原因是，它们提供的信息很可能不在模型的原始预训练语料库中，这一点从表格1中低QA表现可以看出，对于7B和70B模型，QA的准确率分别是9.5%和17.2%。

为了提高训练效率，研究者只采用了每篇文章的首段，这些段落通常包含文章的全面摘要和众多事实陈述。如图2所示，研究者展示了文档和QA对的数量，以及问题中频繁出现的关键词。图3提供了“奥本海默”相关文档和问答对的示例，其中用于计算损失的标记以绿色高亮显示。

Wiki2023数据集的问答对是通过使用现有的大型语言模型，根据文章内容生成多样化的问题和答案。平均每篇文章生成了4.93个问题，这些问题和答案用于后续的指令调优或性能评估。

研究者还对数据集进行了划分，选择了电影领域作为评估基准，并随机选取了256篇文章作为测试集（Wiki2023-film-test）。剩余的文章和相应的QA对用于研究不同的训练策略，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。