百川智能：LLM指令遵循基准CFBench

最新推荐文章于 2024-09-27 10:58:53 发布

大模型任我行

最新推荐文章于 2024-09-27 10:58:53 发布

阅读量578

点赞数 9

分类专栏：大模型-模型评估文章标签：人工智能自然语言处理语言模型

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141397581

版权

大模型-模型评估专栏收录该内容

35 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：CFBench: A Comprehensive Constraints-Following Benchmark for LLMs
🌐来源：arXiv, 2408.01122

🛎️文章简介

🔸研究问题：如何全面评估大语言模型（LLM）在遵循复杂约束指令方面的能力。
🔸主要贡献：论文引入了CFBench，这是一各全面的约束遵循基准，提供了多维度的评估框架，并揭示了LLM在遵循约束方面的显著局限性。

📝重点思路

🔺相关工作
🔸LLM评估：许多研究从不同的角度评估，包括整体能力、专业能力和知识储备。
🔸指令遵循：增加约束的数量和种类可以增强指令的复杂性，通过微调有助于提高指令遵循能力。
🔸评估约束遵循：如字数、位置、主题和内容等约束在可控文本生成领域引起了广泛关注。

🔺核心问题

🔸如何构建高质量的评估数据？
🔸如何准确、细致地评估？

🔺论文方案

🔸指令收集：从现实世界场景和各种NLP任务中收集多样化的指令集，通过过滤和聚类得到高质量指令集
🔸约束提取：使用LLM通过进化方法，提取和扩展原子约束。
🔸约束内容：领域专家梳理一个包含10个主要类别和25个子类别的结构化框架，包括内容约束、数值约束、文体约束、格式约束、语言约束、情境约束、示例约束、逆向约束、矛盾约束和规则约束。
🔸数据构建：给定细化的评估基准，提示LLM迭代的持续优化响应。
🔸模型评估：计算约束满意率（CSR）、指令满意率（ISR）和优先满足率（PSR）。

🔎分析总结

🔸CSR更适合较弱的模型，ISR和PSR突出了更强模型之间的差异，其中ISR最具挑战性。
🔸在主要约束类型中，许多模型在处理矛盾约束时遇到困难，显示出在处理冲突方面的局限性。
🔸在次要约束类型中，所有模型在词汇、单词和句子计数约束方面表现不佳，但在文档计数和受众风格约束方面表现较好。
🔸没有一个模型能够始终适用于大多数约束类型，每个模型都显示出特定的弱点。