亚马逊：基于LLM的RAG细粒度评估框架

最新推荐文章于 2025-04-13 09:43:47 发布

大模型任我行

最新推荐文章于 2025-04-13 09:43:47 发布

阅读量908

点赞数 20

分类专栏：大模型-模型评估大模型-RAG 文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141721417

版权

大模型-模型评估同时被 2 个专栏收录

111 篇文章

订阅专栏

大模型-RAG

53 篇文章

订阅专栏

在这里插入图片描述

📖标题：RAGCHECKER: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation
🌐来源：arXiv, 2408.08067

摘要

尽管检索增强生成（RAG）已经展现出了利用外部知识的良好能力，但由于RAG的模块化特性、长篇回复的评估和测量的可靠性等因素，对RAG系统进行全面评估仍然是具有挑战性的。在本文中，我们提出了一个细粒度的评估框架RAGChecker，它包含了对检索和生成模块的一套诊断指标。元评估验证了RAGChecker与人类判断的相关性显著优于其他评估指标。使用RAGChecker，我们评估了8个RAG系统，并对它们的性能进行了深入分析，揭示了RAG架构设计选择中的有见地的模式和权衡。RAGChecker的指标可以指导研究人员和实践者开发更有效的RAG系统。

🛎️文章简介

🔸研究问题：在检索增强生成（RAG）系统中，如何诊断和提高检索器和生成器的性能。
🔸主要贡献：论文提出了一种细粒度的框架RAGCHECKER，用于诊断RAG系统的检索器和生成器的性能，并提供了改进建议。

📝重点思路

🔺相关工作

🔸RAG：LLM展示了生成文本的强大能力，但也存在诸如过时信息和幻觉等障碍，通过检索外部知识能够提高准确性和真实性。
🔸RAG评估：现有的评估实践可分为仅评估生成器和端到端性能，指标包括质量分数（上下文相关性、接地性和答案相关性）以及人工反馈（流畅性、感知效用和可验证性等）。

🔺论文方案

🔸输入：以元组⟨q,D,gt⟩的格式准备基准数据集中的每个样本，表示查询、文档和真实答案。
🔸细粒度评估：RAG系统生成的响应可能混合了正确和错误，因此需要更细粒度评估答案质量，包括 ①文本到声明提取器 ②声明蕴涵检查器
🔸评估指标：①总体指标为F1 ②检索器指标，召回率为包含真实声明的比例，精确度为包含真是声明的比例 ③生成器指标为忠实度，生成的声明在检索中的覆盖率
🔸实验：选择了8个RAG系统，由2个检索器和4个生成器组合而成。

🔎分析总结

🔸检索质量至关重要，增加块的数量和大小可以提高召回率和F1分数，这种改进对各种生成器都有效，但效果会饱和。
🔸生成器尺寸带来全面改进，如提高上下文利用率、降低噪声敏感性和更少的幻觉。
🔸稳定且高性能的上下文利用是关键，信息丰富的上下文可以提高忠诚度并减少幻觉。
🔸检索器召回率与生成器噪声敏感性之间需要权衡，前者不可避免的会同时提高覆盖度和噪声，后者需要有效过滤噪声并充分利用上下文。