📖标题:RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
🌐来源:arXiv, 2408.01262
摘要
检索增强生成系统(RAG)已经展示了它们在减少大型语言模型(LLMs)的幻觉方面的优势。现有的RAG基准主要集中于评估LLMs是否能够正确回答一般知识。然而,它们无法评估RAG系统在处理来自不同垂直领域的数据方面的有效性。本文介绍了RAGEval,一个用于自动生成评估数据集以评估不同LLMs在不同场景下使用知识的能力的框架。具体而言,RAGEval从种子文档中总结模式,应用配置生成不同的文档,并根据文章和配置构建问答对。我们提出了三个新颖的指标:完整性、幻觉和无关性,来仔细评估LLMs生成的响应。通过在垂直领域中对RAG模型进行基准测试,RAGEval能够更好地评估LLMs的知识使用能力,避免现有QA数据集中回答问题的知识来源(无论是来自参数化记忆还是检索)的混淆。代码和数据集将被发布。
🛎️文章简介
🔸研究问题:现有的RAG评估基准在评估垂直领域的RAG模型,面临可靠性的挑战。
🔸主要贡献:论文提出了一个名为RAGEval的全面评估框架,用于自动生成特定场景下的RAG评估数据集,并引入了新的评估指标来提高评估的准确性和可靠性。
📝重点思路
🔺相关工作
🔸传统的开放域QA基准在评估RAG系统时面临局限性,包括潜在的数据泄漏和对细微输出的评估不足。
🔸新一代RAG特定基准已经出现,包括RGB、CRUD-RAG和CRAG等,但局限于预定义的领域。
🔸传统的RAG评估依赖于F1、BLEU、ROUGE-L等既定的NLP指标,缺乏评估RAG生成能力所需的细微差别,最近的方法还考虑了相关性、真实性和信息性等。
🔺论文方案
🔸阶段1-架构总结:收集一小部分特定领域的文档来总结模式,包括组织、类型、事件、日期、地点等关键元素,概括了场景的特征信息。
🔸阶段2-文档生成:①先生成从第一阶段建立的模式派生的配置,包括事实信息的类型和内容作为参考 ②结合基于规则和基于LLM的方法为模式元素分配值 ③将配置中的事实信息投射到文档中,通过GPT-4生成文档相关部分。
🔸阶段3-QRA生成:使用给定文档和配置,生成“问题-参考-答案”的三元组,用于评估RAG的有效性。
🔺模型评测
🔸数据:利用上述生成方法,构建了DRAGONBall数据集,包括金融、法律和医学三个领域。
🔸指标:检索指标包括召回和有效信息率,生成指标包括完整性、幻觉和无关性。
🔎分析总结
🔸在生成性能比较中,发现基于词频统计的稀疏指标如Rouge-L不能准确反映模型能力。
🔸基于关键点的评估指标,能更全面地反映模型在RAG场景中的性能。
🔸在检索性能比较中,强调了语言特定优化的重要性。
🔸新的评估指标能更准确地评估模型性能,且开源模型与专有模型之间的性能差距较小,表明开源模型有显著的改进潜力。
💡个人观点
论文设计了自动生成特定场景下的RAG评估数据集管道,并引入新的评估指标。
附录