清华：通过回译优化LLM指令遵循

最新推荐文章于 2025-04-28 22:01:42 发布

大模型任我行

最新推荐文章于 2025-04-28 22:01:42 发布

阅读量895

点赞数 21

分类专栏：大模型-指令建设大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/144558790

版权

大模型-模型训练同时被 2 个专栏收录

255 篇文章

订阅专栏

大模型-指令建设

43 篇文章

订阅专栏

在这里插入图片描述

📖标题：Constraint Back-translation Improves Complex Instruction Following of Large Language Models
🌐来源：arXiv, 2410.24175

🌟摘要

🔸大型语言模型（LLM）在格式、长度等方面难以遵循具有复杂约束的指令。遵循传统的指令调优实践，之前的工作对通过向高级LLM提供复杂指令而生成的复杂指令-响应对进行岗位培训。然而，即使是高级LLM也不能很好地遵循复杂的指令，从而限制了生成数据的质量。
🔸在这项工作中，我们发现现有的数据集固有地包含隐含的复杂约束，并提出了一种新的数据生成技术——约束反翻译。具体来说，我们采用现有数据集中的高质量指令-响应对，只采用高级LLM来添加指令响应已经满足的复杂约束，这自然会降低成本和数据噪声。在实验中，我们采用Llama3-70B-Instruct对约束进行回溯转换，并创建了一个高质量的复杂指令响应数据集，名为CRAB。
🔸我们表明，CRAB上的训练后提高了多个主干 LLM 的复杂指令跟踪能力，在广泛的指令跟踪基准上进行了评估。我们进一步发现约束反向翻译在训练后也可以作为有用的辅助训练目标。我们的代码、数据和模型将发布以促进未来的研究。

🛎️文章简介

🔸研究问题：大语言模型在遵循复杂指令时，由于引入约束条件而导致的响应质量下降。
🔸主要贡献：论文提出了一种约束反向翻译方法（Constraint Back-translation），通过向指令添加响应已具备的约束来提高复杂指令遵循能力。

🧲相关工作

🔸指令遵循：两种方式，数据驱动的方法需要设计一个自动化的管道或使用人工注释来生成高质量的训练数据，新的训练方法包括新颖的目标或训练管道。
🔸反向翻译：最早在机器翻译领域提出用于数据增强，现在也用于大模型领域自动生成高质量数据。

📝重点思路

🔸数据构建：从现有数据集中采样13500个实例，手动定义常见约束范围，使用Llama3-70B-Instruct生成响应，筛选出满足约束的数据后，让LLM进一步改写提示来包含这些约束，从而形成大规模复杂指令遵循数据集（CRAB）。
🔸数据样例：（你最喜欢哪个运动员，姚明）→你最喜欢哪个中国运动员
🔸模型训练：采用标准监督微调和反向训练相结合的方法，使用CRAB和ShareGPT数据集训练LLM。
🔸控制实验：通过对照实验和消融实验，分析影响模型性能的关键因素，如反向训练、标准监督微调、上下文演示等。

🔎分析总结

🔸约束反向翻译方法生成的响应在内容质量上显著优于基于指令和约束生成响应的方法。
🔸反向训练、标准监督微调和上下文演示等因素对模型性能有显著提升作用。
🔸在复杂约束遵循任务中，约束反向翻译方法生成的训练数据质量更高，模型表现更好。
🔸在处理混合约束（模拟真实场景）时，模型表现显著优于传统方法，但在某些特定约束类别（如风格约束）上表现较差，表明约束反向翻译方法在某些特定约束生成上存在局限性。