📖标题:Beyond Instruction Following: Evaluating Rule Following of Large Language Models
🌐来源:arXiv, 2407.08440
🛎️文章简介
🔸研究问题:如何评估大语言模型(LLM)在遵循规则方面的能力,并与指令遵循做区分。
🔸主要贡献:论文提出了一个名为RuleBench的规则遵循基准,通过实验揭示了LLM在不同场景下遵循规则的能力和不足之处。
📝重点思路
🔺相关工作
🔸规则推理:LLM经常会生成不符合逻辑或人类偏好的输出,RAG强化的规则推理并没有取得满意的效果。
🔸指令遵循:被认为是LLM的一项重要能力,大量基准来评估指令遵循,却没有和规则遵循相区分。
🔺论文方案
🔸借鉴并重构了现有的推理基准,包括括关系提取、内容审核、常识QA、科学QA和判断预测,得到RuleBench。
🔸选择Llama-2-7b、Llama-3-8B、Mistral-7B、Yi等开源模型,以及gpt-3.5-turbo、gpt-4-turbo和gpt-4o等闭源模型。
🔸通过设置无规则、黄金规则、少量规则和全部规则,分别测试LLM的表现。
🔎分析总结
🔸LLM能通过遵循规则提高复杂推理能力,但仍不能遵循复杂的数学或物理规则。
🔸规则的类型、数量、内容和形式均会对LLM的表现产生影响,自然语言要好于形式语言。
🔸普通CoT不足以让LLM应用规则,需要涉及规划步骤的提示技术。
🔸与遵循事实规则相比,LLM遵循反事实规则时的性能显着下降,表明参数知识和规则一致性有关联。
💡个人观点
论文的创新点是提出了一种评估LLM规则遵循能力的方法,并揭示了LLM在遵循规则的任务中的能力和不足之处。
附录