清华:LLM长上下文问答与引文基准

在这里插入图片描述

📖标题:LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
🌐来源:arXiv, 2409.02897

摘要

🔸尽管当前的长上下文大语言模型(LLM)在基于大量文本回答用户问题方面表现出了令人印象深刻的能力,但它们的回答中缺乏引用使得用户验证变得困难,导致人们担心它们的可信度,因为它们可能会产生幻觉。
🔸在这项工作中,我们的目标是使长上下文LLM能够生成具有细粒度句子级引用的响应,提高其可信度和可验证性。我们首先介绍LongBench Cite,这是一个自动基准,用于评估当前LLM在长上下文引文问答(LQAC)中的表现,揭示了相当大的改进空间。为此,我们提出了CoF(粗到细),这是一种新的管道,利用现成的LLM自动生成具有精确句子级引用的长上下文QA实例,并利用该管道构建LongCite-45k,这是LQAC的大规模SFT数据集。最后,我们使用LongCite45k数据集训练LongCite-8B和LongCite-9B,成功地在单个输出中生成了准确的响应和细粒度的句子级引用。
🔸LongBench Cite的评估结果表明,我们训练的模型达到了最先进的引文质量,超过了包括GPT-4o在内的先进专有模型。我们还发现,带有引文信息的SFT有效地减少了幻觉,并能够更均匀地利用上下文。我们的代码和模型位于:https://github.com/THUDM/LongCite.

🛎️文章简介

🔸研究问题:大语言模型(LLM)在长上下文问答与引文(LQAC)中,通常引用是缺乏或粗粒度的,导致难以验证具体的支持证据。
🔸主要贡献:论文提出了LQAC基准LongBench-Cite,并提出CoF方法构建了训练数据,使微调后的模型能够在长上下文中生成准确答案和细粒度引用。

📝重点思路

🔺相关工作

🔸长上下文LLM:扩展LLM上下文窗口的成熟方法,包括在广泛的长文本上持续对基础模型进行预训练,然后使用不同的长上下文QA对进行对齐。
🔸问答与引文:带引用的问答在开放问答领域得到了广泛的研究,当前方法大多依赖于RAG或事后处理,由于信息丢失或过度延迟,这些方法不太适合长上下文问答场景。

🔺LongBench-Cite基准

🔸基于长上下文基准LongBench和LongBench-Chat构建。
🔸正确性评价和引文质量评价两个评估维度。
🔸对当前长上下文LLM进行广泛的测试。

🔺CoF管道

🔸问答生成:给定的冗长上下文,使用LLM生成查询及其对应的答案,覆盖摘要、信息抽取和多跳推理等多样性。
🔸块级引文:将上下文按照128个token分块,使用答案中的每个句子检索若干相关块,将所有相关块与查询和答案一起输入LLM,以在答案中匹配粗粒度的块级引用。
🔸句子级引文:LLM从每个引用的块中识别出相关的句子,以生成细粒度的引用。
🔸引文筛选:过滤掉答案中引用数量不足20%的实例。

🔎分析总结

🔸CoF方法在答案的正确性和引用质量方面优于其他长上下文问答策略。
🔸通过CoF方法构建的LongCite-45k数据集包含44600个高质量的长上下文问答实例,上下文长度可达128000个token。
🔸使用LongCite-45k数据集微调的模型,能够在一次输出中生成准确的回答和精确的细粒度引用,显著优于更大的专有模型。
🔸通过在长上下文问答数据上进行微调,可以减少LLM的幻觉现象,并使其更均匀和全面地利用上下文信息,从而进一步提高回答的正确性。

💡个人观点

论文的核心是提出了一种从粗到细的引用生成方法(CoF),并构建了一个大规模的长上下文问答数据集。

附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值