清华:通过回译优化LLM指令遵循

在这里插入图片描述

📖标题:Constraint Back-translation Improves Complex Instruction Following of Large Language Models
🌐来源:arXiv, 2410.24175

🌟摘要

🔸大型语言模型(LLM)在格式、长度等方面难以遵循具有复杂约束的指令。遵循传统的指令调优实践,之前的工作对通过向高级LLM提供复杂指令而生成的复杂指令-响应对进行岗位培训。然而,即使是高级LLM也不能很好地遵循复杂的指令,从而限制了生成数据的质量。
🔸在这项工作中,我们发现现有的数据集固有地包含隐含的复杂约束,并提出了一种新的数据生成技术——约束反翻译。具体来说,我们采用现有数据集中的高质量指令-响应对,只采用高级LLM来添加指令响应已经满足的复杂约束,这自然会降低成本和数据噪声。在实验中,我们采用Llama3-70B-Instruct对约束进行回溯转换,并创建了一个高质量的复杂指令响应数据集,名为CRAB。
🔸我们表明,CRAB上的训练后提高了多个主干 LLM 的复杂指令跟踪能力,在广泛的指令跟踪基准上进行了评估。我们进一步发现约束反向翻译在训练后也可以作为有用的辅助训练目标。我们的代码、数据和模型将发布以促进未来的研究。

🛎️文章简介

🔸研究问题:大语言模型在遵循复杂指令时,由于引入约束条件而导致的响应质量下降。
🔸主要贡献:论文提出了一种约束反向翻译方法(Constraint Back-translation),通过向指令添加响应已具备的约束来提高复杂指令遵循能力。

🧲相关工作

🔸指令遵循:两种方式,数据驱动的方法需要设计一个自动化的管道或使用人工注释来生成高质量的训练数据,新的训练方法包括新颖的目标或训练管道。
🔸反向翻译:最早在机器翻译领域提出用于数据增强,现在也用于大模型领域自动生成高质量数据。

📝重点思路

🔸数据构建:从现有数据集中采样13500个实例,手动定义常见约束范围,使用Llama3-70B-Instruct生成响应,筛选出满足约束的数据后,让LLM进一步改写提示来包含这些约束,从而形成大规模复杂指令遵循数据集(CRAB)。
🔸数据样例:(你最喜欢哪个运动员,姚明)→你最喜欢哪个中国运动员
🔸模型训练:采用标准监督微调和反向训练相结合的方法,使用CRAB和ShareGPT数据集训练LLM。
🔸控制实验:通过对照实验和消融实验,分析影响模型性能的关键因素,如反向训练、标准监督微调、上下文演示等。

🔎分析总结

🔸约束反向翻译方法生成的响应在内容质量上显著优于基于指令和约束生成响应的方法。
🔸反向训练、标准监督微调和上下文演示等因素对模型性能有显著提升作用。
🔸在复杂约束遵循任务中,约束反向翻译方法生成的训练数据质量更高,模型表现更好。
🔸在处理混合约束(模拟真实场景)时,模型表现显著优于传统方法,但在某些特定约束类别(如风格约束)上表现较差,表明约束反向翻译方法在某些特定约束生成上存在局限性。

💡个人观点

论文的核心在于从模型的响应中识别出潜在约束,并以此在指令中补充约束信息来构建训练数据。

🧩附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值