康奈尔大学：LLM长格式事实基准

大模型任我行

于 2024-08-28 12:00:00 发布

阅读量124

点赞数 3

分类专栏：大模型-模型评估大模型-RAG 文章标签：人工智能自然语言处理语言模型

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141595905

版权

大模型-RAG 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

大模型-模型评估

9 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：WILDHALLUCINATIONS: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries
🌐来源：arXiv, 2407.17468

🛎️文章简介

🔸研究问题：如何评估大语言模型（LLM）在长篇内容生成中的事实准确性？
🔸主要贡献：论文提出了WILDHALLUCINATIONS，这是一个长文本事实准确性基准，用于评估LLM在真实世界实体查询中的事实准确性。

📝重点思路

🔺相关工作

🔸LLM幻觉：依靠参数化知识来回答查询，经常会产生不正确的世界知识或推理幻觉，相关数据包括FACTSCORE。
🔸检测LLM错误：幻觉检测的研究分为两类，一种是根据证据文档和生成的内容进行提问，另一种是使用蕴含模型来评估事实性。

🔺论文方案

🔸建设目标：①确保评估过程自动可靠 ②涵盖现实世界用户寻求的不同类型的信息
🔸数据构建：从WildChat中提取实体，为每个提取的实体构建一个由多个网络文档组成的知识源。
🔸评估流程：通过管道来执行自动事实检查，包括①将长格式生成分解为一组原子声明 ②检索每个原子声明的多个段落 ③验证每个原子声明是否包含在检索到的段落中

🔎分析总结

🔸LLM在不同领域的幻觉率不同，人物和金融领域的幻觉率较高，地理和计算相关领域的幻觉率较低。
🔸没有维基百科页面的实体比有维基百科页面的实体更容易导致LLM产生幻觉。
🔸检索增强有助于减少幻觉，但不能完全消除幻觉。
🔸不同模型在处理罕见实体和非维基百科知识时的表现不同，RAG对罕见实体的鲁棒性更强。