清华：LLM长上下文问答与引文基准

最新推荐文章于 2024-09-13 19:41:31 发布

大模型任我行

最新推荐文章于 2024-09-13 19:41:31 发布

阅读量758

点赞数 24

分类专栏：大模型-模型评估大模型-RAG 文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142172146

版权

大模型-模型评估同时被 2 个专栏收录

29 篇文章 0 订阅

订阅专栏

大模型-RAG

24 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
🌐来源：arXiv, 2409.02897

摘要

🔸尽管当前的长上下文大语言模型（LLM）在基于大量文本回答用户问题方面表现出了令人印象深刻的能力，但它们的回答中缺乏引用使得用户验证变得困难，导致人们担心它们的可信度，因为它们可能会产生幻觉。
🔸在这项工作中，我们的目标是使长上下文LLM能够生成具有细粒度句子级引用的响应，提高其可信度和可验证性。我们首先介绍LongBench Cite，这是一个自动基准，用于评估当前LLM在长上下文引文问答（LQAC）中的表现，揭示了相当大的改进空间。为此，我们提出了CoF（粗到细），这是一种新的管道，利用现成的LLM自动生成具有精确句子级引用的长上下文QA实例，并利用该管道构建LongCite-45k，这是LQAC的大规模SFT数据集。最后，我们使用LongCite45k数据集训练LongCite-8B和LongCite-9B，成功地在单个输出中生成了准确的响应和细粒度的句子级引用。
🔸LongBench Cite的评估结果表明，我们训练的模型达到了最先进的引文质量，超过了包括GPT-4o在内的先进专有模型。我们还发现，带有引文信息的SFT有效地减少了幻觉，并能够更均匀地利用上下文。我们的代码和模型位于：https://github.com/THUDM/LongCite.

🛎️文章简介

🔸研究问题：大语言模型（LLM）在长上下文问答与引文（LQAC）中，通常引用是缺乏或粗粒度的，导致难以验证具体的支持证据。
🔸主要贡献：论文提出了LQAC基准LongBench-Cite，并提出CoF方法构建了训练数据，使微调后的模型能够在长上下文中生成准确答案和细粒度引用。

📝重点思路

🔺相关工作

🔸长上下文LLM：扩展LLM上下文窗口的成熟方法，包括在广泛的长文本上持续对基础模型进行预训练，然后使用不同的长上下文QA对进行对齐。
🔸问答与引文：带引用的问答在开放问答领域得到了广泛的研究，当前方法大多依赖于RAG或事后处理，由于信息丢失或过度延迟，这些方法不太适合长上下文问答场景。

🔺LongBench-Cite基准

🔸基于长上下文基准LongBench和LongBench-Chat构建。
🔸正确性评价和引文质量评价两个评估维度。
🔸对当前长上下文LLM进行广泛的测试。

🔺CoF管道

🔸问答生成：给定的冗长上下文，使用LLM生成查询及其对应的答案，覆盖摘要、信息抽取和多跳推理等多样性。
🔸块级引文：将上下文按照128个token分块，使用答案中的每个句子检索若干相关块，将所有相关块与查询和答案一起输入LLM，以在答案中匹配粗粒度的块级引用。
🔸句子级引文：LLM从每个引用的块中识别出相关的句子，以生成细粒度的引用。
🔸引文筛选：过滤掉答案中引用数量不足20%的实例。

🔎分析总结

🔸CoF方法在答案的正确性和引用质量方面优于其他长上下文问答策略。
🔸通过CoF方法构建的LongCite-45k数据集包含44600个高质量的长上下文问答实例，上下文长度可达128000个token。
🔸使用LongCite-45k数据集微调的模型，能够在一次输出中生成准确的回答和精确的细粒度引用，显著优于更大的专有模型。
🔸通过在长上下文问答数据上进行微调，可以减少LLM的幻觉现象，并使其更均匀和全面地利用上下文信息，从而进一步提高回答的正确性。