港大：LLM密集推理检索基准BRIGHT

最新推荐文章于 2025-06-03 21:31:47 发布

大模型任我行

最新推荐文章于 2025-06-03 21:31:47 发布

阅读量601

点赞数 7

分类专栏：大模型-RAG 大模型-模型评估文章标签：人工智能自然语言处理语言模型

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141555008

版权

大模型-模型评估同时被 2 个专栏收录

127 篇文章

订阅专栏

大模型-RAG

56 篇文章

订阅专栏

在这里插入图片描述

📖标题：BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
🌐来源：arXiv, 2407.12883

🛎️文章简介

🔸研究问题：现有的检索模型，在处理需要复杂推理的查询时表现不佳。
🔸主要贡献：论文提出了了BRIGHT，这是一个真实检索场景中需要密集推理步骤的第一个检索基准。

📝重点思路

🔺相关工作

🔸检索基准：现有的信息检索（IR）数据集通常是为信息查找任务而构建的，主要围绕如问答、声明验证或实体检索等任务，并不能反映现实的检索场景。
🔸密集检索与RAG：最先进的检索系统通常使用密集模型来编码具有丰富表示的文本，随着密集生成模型的不断改进，RAG检索相关文档以帮助生成连贯的答案，本文聚焦检索而非生成。
🔸推理基准：许多基准测试旨在评估LLM的推理能力，特别是数学和编码，问答对通常来自教科书、在线资源、竞赛或领域专家。

🔺论文方案

🔸推理密集型检索任务：给定查询和检索语料库，通过一系列推理步骤，不断的检索与查询相关内容，并对问题进行分析和建模。
🔸数据构建：收集来自经济学、数学、地球科学等领域的自然用户查询，覆盖网络查询、代码和定理等检索内容。
🔸模型评测：使用LLM生成的推理步骤作为新的查询，评估了13个代表性检索模型，覆盖传统的词袋模型到大型密集检索模型。

🔎分析总结

🔸BRIGHT非常具有挑战性，现有的检索系统均表现不佳，无法进行推理密集型检索。
🔸使用LLM的推理步骤进行查询可提高性能，模型性能不佳的一个可能原因是所需的推理过程要求很高。
🔸生成的推理步骤可提高BM25性能，但对于其他模型来说效果较差，说明LLM生成的查询分布不满足模型训练分布。
🔸涉及长文档的推理密集型任务，即便减少检索池，对LLM来说仍具有挑战性。