清华:基于LLM的RAG评估数据集生成框架

在这里插入图片描述

📖标题:RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
🌐来源:arXiv, 2408.01262

摘要

检索增强生成系统(RAG)已经展示了它们在减少大型语言模型(LLMs)的幻觉方面的优势。现有的RAG基准主要集中于评估LLMs是否能够正确回答一般知识。然而,它们无法评估RAG系统在处理来自不同垂直领域的数据方面的有效性。本文介绍了RAGEval,一个用于自动生成评估数据集以评估不同LLMs在不同场景下使用知识的能力的框架。具体而言,RAGEval从种子文档中总结模式,应用配置生成不同的文档,并根据文章和配置构建问答对。我们提出了三个新颖的指标:完整性、幻觉和无关性,来仔细评估LLMs生成的响应。通过在垂直领域中对RAG模型进行基准测试,RAGEval能够更好地评估LLMs的知识使用能力,避免现有QA数据集中回答问题的知识来源(无论是来自参数化记忆还是检索)的混淆。代码和数据集将被发布。

🛎️文章简介

🔸研究问题:现有的RAG评估基准在评估垂直领域的RAG模型,面临可靠性的挑战。
🔸主要贡献:论文提出了一个名为RAGEval的全面评估框架,用于自动生成特定场景下的RAG评估数据集,并引入了新的评估指标来提高评估的准确性和可靠性。

📝重点思路

🔺相关工作

🔸传统的开放域QA基准在评估RAG系统时面临局限性,包括潜在的数据泄漏和对细微输出的评估不足。
🔸新一代RAG特定基准已经出现,包括RGB、CRUD-RAG和CRAG等,但局限于预定义的领域。
🔸传统的RAG评估依赖于F1、BLEU、ROUGE-L等既定的NLP指标,缺乏评估RAG生成能力所需的细微差别,最近的方法还考虑了相关性、真实性和信息性等。

🔺论文方案

🔸阶段1-架构总结:收集一小部分特定领域的文档来总结模式,包括组织、类型、事件、日期、地点等关键元素,概括了场景的特征信息。
🔸阶段2-文档生成:①先生成从第一阶段建立的模式派生的配置,包括事实信息的类型和内容作为参考 ②结合基于规则和基于LLM的方法为模式元素分配值 ③将配置中的事实信息投射到文档中,通过GPT-4生成文档相关部分。
🔸阶段3-QRA生成:使用给定文档和配置,生成“问题-参考-答案”的三元组,用于评估RAG的有效性。

🔺模型评测

🔸数据:利用上述生成方法,构建了DRAGONBall数据集,包括金融、法律和医学三个领域。
🔸指标:检索指标包括召回和有效信息率,生成指标包括完整性、幻觉和无关性。

🔎分析总结

🔸在生成性能比较中,发现基于词频统计的稀疏指标如Rouge-L不能准确反映模型能力。
🔸基于关键点的评估指标,能更全面地反映模型在RAG场景中的性能。
🔸在检索性能比较中,强调了语言特定优化的重要性。
🔸新的评估指标能更准确地评估模型性能,且开源模型与专有模型之间的性能差距较小,表明开源模型有显著的改进潜力。

💡个人观点

论文设计了自动生成特定场景下的RAG评估数据集管道,并引入新的评估指标。

附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值