康奈尔大学:LLM长格式事实基准

在这里插入图片描述

📖标题:WILDHALLUCINATIONS: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries
🌐来源:arXiv, 2407.17468

🛎️文章简介

🔸研究问题:如何评估大语言模型(LLM)在长篇内容生成中的事实准确性?
🔸主要贡献:论文提出了WILDHALLUCINATIONS,这是一个长文本事实准确性基准,用于评估LLM在真实世界实体查询中的事实准确性。

📝重点思路

🔺相关工作

🔸LLM幻觉:依靠参数化知识来回答查询,经常会产生不正确的世界知识或推理幻觉,相关数据包括FACTSCORE。
🔸检测LLM错误:幻觉检测的研究分为两类,一种是根据证据文档和生成的内容进行提问,另一种是使用蕴含模型来评估事实性。

🔺论文方案

🔸建设目标:①确保评估过程自动可靠 ②涵盖现实世界用户寻求的不同类型的信息
🔸数据构建:从WildChat中提取实体,为每个提取的实体构建一个由多个网络文档组成的知识源。
🔸评估流程:通过管道来执行自动事实检查,包括①将长格式生成分解为一组原子声明 ②检索每个原子声明的多个段落 ③验证每个原子声明是否包含在检索到的段落中

🔎分析总结

🔸LLM在不同领域的幻觉率不同,人物和金融领域的幻觉率较高,地理和计算相关领域的幻觉率较低。
🔸没有维基百科页面的实体比有维基百科页面的实体更容易导致LLM产生幻觉。
🔸检索增强有助于减少幻觉,但不能完全消除幻觉。
🔸不同模型在处理罕见实体和非维基百科知识时的表现不同,RAG对罕见实体的鲁棒性更强。

💡个人观点

论文开发了一个新的基准,更全面地评估LLM在真实世界实体查询中的事实准确性。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值