清华：基于LLM的RAG评估数据集生成框架

最新推荐文章于 2024-09-15 15:29:29 发布

大模型任我行

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量761

点赞数 15

分类专栏：大模型-RAG 大模型-模型评估文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141671467

版权

大模型-模型评估同时被 2 个专栏收录

29 篇文章 0 订阅

订阅专栏

大模型-RAG

24 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
🌐来源：arXiv, 2408.01262

摘要

检索增强生成系统（RAG）已经展示了它们在减少大型语言模型（LLMs）的幻觉方面的优势。现有的RAG基准主要集中于评估LLMs是否能够正确回答一般知识。然而，它们无法评估RAG系统在处理来自不同垂直领域的数据方面的有效性。本文介绍了RAGEval，一个用于自动生成评估数据集以评估不同LLMs在不同场景下使用知识的能力的框架。具体而言，RAGEval从种子文档中总结模式，应用配置生成不同的文档，并根据文章和配置构建问答对。我们提出了三个新颖的指标：完整性、幻觉和无关性，来仔细评估LLMs生成的响应。通过在垂直领域中对RAG模型进行基准测试，RAGEval能够更好地评估LLMs的知识使用能力，避免现有QA数据集中回答问题的知识来源（无论是来自参数化记忆还是检索）的混淆。代码和数据集将被发布。

🛎️文章简介

🔸研究问题：现有的RAG评估基准在评估垂直领域的RAG模型，面临可靠性的挑战。
🔸主要贡献：论文提出了一个名为RAGEval的全面评估框架，用于自动生成特定场景下的RAG评估数据集，并引入了新的评估指标来提高评估的准确性和可靠性。

📝重点思路

🔺相关工作

🔸传统的开放域QA基准在评估RAG系统时面临局限性，包括潜在的数据泄漏和对细微输出的评估不足。
🔸新一代RAG特定基准已经出现，包括RGB、CRUD-RAG和CRAG等，但局限于预定义的领域。
🔸传统的RAG评估依赖于F1、BLEU、ROUGE-L等既定的NLP指标，缺乏评估RAG生成能力所需的细微差别，最近的方法还考虑了相关性、真实性和信息性等。

🔺论文方案

🔸阶段1-架构总结：收集一小部分特定领域的文档来总结模式，包括组织、类型、事件、日期、地点等关键元素，概括了场景的特征信息。
🔸阶段2-文档生成：①先生成从第一阶段建立的模式派生的配置，包括事实信息的类型和内容作为参考 ②结合基于规则和基于LLM的方法为模式元素分配值 ③将配置中的事实信息投射到文档中，通过GPT-4生成文档相关部分。
🔸阶段3-QRA生成：使用给定文档和配置，生成“问题-参考-答案”的三元组，用于评估RAG的有效性。

🔺模型评测

🔸数据：利用上述生成方法，构建了DRAGONBall数据集，包括金融、法律和医学三个领域。
🔸指标：检索指标包括召回和有效信息率，生成指标包括完整性、幻觉和无关性。

🔎分析总结

🔸在生成性能比较中，发现基于词频统计的稀疏指标如Rouge-L不能准确反映模型能力。
🔸基于关键点的评估指标，能更全面地反映模型在RAG场景中的性能。
🔸在检索性能比较中，强调了语言特定优化的重要性。
🔸新的评估指标能更准确地评估模型性能，且开源模型与专有模型之间的性能差距较小，表明开源模型有显著的改进潜力。