谷歌:LLM复杂推理基准CoverBench

在这里插入图片描述

📖标题:CoverBench: A Challenging Benchmark for Complex Claim Verification
🌐来源:arXiv, 2408.03325

摘要

目前有越来越多的研究致力于验证语言模型输出的正确性。同时,语言模型被用于解决需要推理的复杂问题。我们介绍了CoverBench,这是一个专注于在复杂推理环境中验证语言模型输出的具有挑战性的基准测试。可以用于此目的的数据集通常是为其他复杂推理任务(例如问答)设计的,针对特定用例(例如财务表格),需要进行转换、负采样和选择困难样本以收集此类基准测试。CoverBench提供了多样化的评估,用于在各种领域、推理类型、相对较长的输入和各种标准化情况下进行复杂的声明验证,例如,对于可用的表格,提供了多种表示方法和一致的模式。我们手动审核数据以确保标签噪声水平低。最后,我们报告了各种有竞争力的基线结果,以展示CoverBench具有挑战性并且有非常显著的提升空间。数据可在https://huggingface.co/datasets/google/coverbench上获取。

🛎️文章简介

🔸研究问题:如何评估语大语言模型(LLM)的复杂推理能力?
🔸主要贡献:论文提出了一个名为CoverBench的新基准,包含了需要进行隐含复杂推理才能验证的真实和虚假主张,并通过实验展示了当前语言模型在该任务上的性能不足。

📝重点思路

🔺相关工作

🔸最近的工作重点是测量语言模型输出的各种属性,其中的重点之一是判断生成的内容是否忠于上下文。
🔸将LLM应用于复杂查询时,复杂推理和声明验证是否等价值得商榷。

🔺论文方案

🔸模式统一:将所有任务转换为统一的格式,包括声明、推理类型元数据和表格表示的标准化。
🔸负采样:由于部分数据集仅包含正确作答,使用种子模型生成负样本(即与上下文不一致的声明),并确保这些负样本难以验证。
🔸示例选择:通过利用元数据和模型选择来挑选具有挑战性的示例,确保基准的代表性和难度。
🔸人工检查:从每个数据集中随机选择示例进行人工检查,以确保其可解性和诊断可能的问题。
🔸基准测试:CoverBench包含733个示例,平均长度3500,正负样本比例为45:55。

🔎分析总结

🔸CoverBench上最好的模型在Macro-F1评分上低于65,而较小的模型表现接近随机水平。
🔸人工验证表明任务可解,说明复杂声明验证任务对LLM来说仍有很大的改进空间。

💡个人观点

论文提出了一个包含多样化数据集和复杂推理需求的新基准,表明了LLM推理能力的瓶颈。

附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值