Meta:通过数据重写优化LLM的指令回译

在这里插入图片描述

📖标题:Better Alignment with Instruction Back-and-Forth Translation
🌐来源:arXiv, 2408.04614
🗓️前序研究:Meta在23年发表,Self-Alignment with Instruction Backtranslation

摘要

我们提出了一种新方法,即指令来回翻译,用于构建基于世界知识的高质量合成数据,以对齐大型语言模型(LLMs)。给定来自网络语料库的文档,我们使用Li等人(2023a)提出的回译方法生成和筛选合成指令,并根据初始文档进一步改写响应以提高其质量。使用生成的(回译指令,改写响应)对进行微调,比使用其他常见的指令数据集如Humpback、ShareGPT、Open Orca、Alpaca-GPT4和Self-instruct,在AlpacaEval上获得更高的胜率。我们还证明,使用LLM重写响应优于直接蒸馏,而两个生成的文本分布在嵌入空间中有显著的区别。进一步分析表明,我们的回译指令比其他合成指令来源更高质量,而我们的响应比蒸馏获得的响应更多样化和复杂。总体而言,指令来回翻译结合了网络上发现的信息多样性和数量,同时确保响应的质量,这对于有效对齐是必要的。

🛎️文章简介

🔸研究问题:如何改进指令调优数的据生成方法来提高大语言模型(LLM)的性能。
🔸主要贡献:论文提出了一种新的指令生成方法,通过回译技术生成多样化的指令,并比较了重写与蒸馏两种方法的效果。

📝重点思路

🔺相关工作
🔸人工标注数据:人类注释了一系列的NLP任务,由于昂贵成本,这些数据集的规模往往相对较小。
🔸综合指令生成:一些论文提出了自动生成大量指令的方法,如回译技术,但网络获取的文本质量难以保证。
🔸蒸馏:指令调优数据生成中最常见的方法,通过向教师模型提供查询并获得输出,微调学生LLM来模仿教师LLM的功能。
🔸提高数据质量:一些工作研究了高质量指令调优数据的特征和管理技术,如LIMA和Evol-Instruct等。

🔺论文方案

🔸初始数据:基于种子示例微调基础模型,以获取指令生成能力,再对网络获取的候选响应生成相匹配的综合指令。
🔸数据评分:通过在种子示例上微调相同的基础模型来单独获得指令遵循模型,并用它来对(合成指令,网络抓取响应)对的质量进行评分。
🔸数据重写:对于得分最高的对,要求现有的对齐模型根据生成的指令和初始网络文本进一步改进响应。
🔸消融实验:比较了重写和蒸馏两种方法在指令调优数据生成中的效果。

🔎分析总结

🔸重写方法能够提高响应质量,尤其是在去除初始网络爬取响应中的无关信息方面。
🔸相比于仅从现有LLM中蒸馏知识,包含网络来源的数据构建能够鼓励更多样化的指令和响应。
🔸重写方法在保持响应长度方面表现更好,而蒸馏方法生成的响应长度显著增加。

💡个人观点

论文引入打分-微调-重写步骤,优化了之前的指令回译质量。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值