中科院:LLM规则遵循基准RuleBench

在这里插入图片描述

📖标题:Beyond Instruction Following: Evaluating Rule Following of Large Language Models
🌐来源:arXiv, 2407.08440

🛎️文章简介

🔸研究问题:如何评估大语言模型(LLM)在遵循规则方面的能力,并与指令遵循做区分。
🔸主要贡献:论文提出了一个名为RuleBench的规则遵循基准,通过实验揭示了LLM在不同场景下遵循规则的能力和不足之处。

📝重点思路

🔺相关工作

🔸规则推理:LLM经常会生成不符合逻辑或人类偏好的输出,RAG强化的规则推理并没有取得满意的效果。
🔸指令遵循:被认为是LLM的一项重要能力,大量基准来评估指令遵循,却没有和规则遵循相区分。

🔺论文方案

🔸借鉴并重构了现有的推理基准,包括括关系提取、内容审核、常识QA、科学QA和判断预测,得到RuleBench。
🔸选择Llama-2-7b、Llama-3-8B、Mistral-7B、Yi等开源模型,以及gpt-3.5-turbo、gpt-4-turbo和gpt-4o等闭源模型。
🔸通过设置无规则、黄金规则、少量规则和全部规则,分别测试LLM的表现。

🔎分析总结

🔸LLM能通过遵循规则提高复杂推理能力,但仍不能遵循复杂的数学或物理规则。
🔸规则的类型、数量、内容和形式均会对LLM的表现产生影响,自然语言要好于形式语言。
🔸普通CoT不足以让LLM应用规则,需要涉及规划步骤的提示技术。
🔸与遵循事实规则相比,LLM遵循反事实规则时的性能显着下降,表明参数知识和规则一致性有关联。

💡个人观点

论文的创新点是提出了一种评估LLM规则遵循能力的方法,并揭示了LLM在遵循规则的任务中的能力和不足之处。

附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值