中科院：LLM规则遵循基准RuleBench

最新推荐文章于 2024-09-30 14:16:32 发布

大模型任我行

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量809

点赞数 16

分类专栏：大模型-模型评估文章标签：人工智能自然语言处理语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141456505

版权

大模型-模型评估专栏收录该内容

36 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Beyond Instruction Following: Evaluating Rule Following of Large Language Models
🌐来源：arXiv, 2407.08440

🛎️文章简介

🔸研究问题：如何评估大语言模型（LLM）在遵循规则方面的能力，并与指令遵循做区分。
🔸主要贡献：论文提出了一个名为RuleBench的规则遵循基准，通过实验揭示了LLM在不同场景下遵循规则的能力和不足之处。

📝重点思路

🔺相关工作

🔸规则推理：LLM经常会生成不符合逻辑或人类偏好的输出，RAG强化的规则推理并没有取得满意的效果。
🔸指令遵循：被认为是LLM的一项重要能力，大量基准来评估指令遵循，却没有和规则遵循相区分。

🔺论文方案

🔸借鉴并重构了现有的推理基准，包括括关系提取、内容审核、常识QA、科学QA和判断预测，得到RuleBench。
🔸选择Llama-2-7b、Llama-3-8B、Mistral-7B、Yi等开源模型，以及gpt-3.5-turbo、gpt-4-turbo和gpt-4o等闭源模型。
🔸通过设置无规则、黄金规则、少量规则和全部规则，分别测试LLM的表现。

🔎分析总结

🔸LLM能通过遵循规则提高复杂推理能力，但仍不能遵循复杂的数学或物理规则。
🔸规则的类型、数量、内容和形式均会对LLM的表现产生影响，自然语言要好于形式语言。
🔸普通CoT不足以让LLM应用规则，需要涉及规划步骤的提示技术。
🔸与遵循事实规则相比，LLM遵循反事实规则时的性能显着下降，表明参数知识和规则一致性有关联。

💡个人观点

论文的创新点是提出了一种评估LLM规则遵循能力的方法，并揭示了LLM在遵循规则的任务中的能力和不足之处。

附录

在这里插入图片描述

大模型任我行

关注

16
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型任我行 随意啦，喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。