Meta：通过数据重写优化LLM的指令回译

最新推荐文章于 2024-10-04 22:36:54 发布

大模型任我行

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量1.6k

点赞数 30

分类专栏：大模型-指令建设文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141682749

版权

大模型-指令建设专栏收录该内容

11 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Better Alignment with Instruction Back-and-Forth Translation
🌐来源：arXiv, 2408.04614
🗓️前序研究：Meta在23年发表，Self-Alignment with Instruction Backtranslation

摘要

我们提出了一种新方法，即指令来回翻译，用于构建基于世界知识的高质量合成数据，以对齐大型语言模型（LLMs）。给定来自网络语料库的文档，我们使用Li等人（2023a）提出的回译方法生成和筛选合成指令，并根据初始文档进一步改写响应以提高其质量。使用生成的（回译指令，改写响应）对进行微调，比使用其他常见的指令数据集如Humpback、ShareGPT、Open Orca、Alpaca-GPT4和Self-instruct，在AlpacaEval上获得更高的胜率。我们还证明，使用LLM重写响应优于直接蒸馏，而两个生成的文本分布在嵌入空间中有显著的区别。进一步分析表明，我们的回译指令比其他合成指令来源更高质量，而我们的响应比蒸馏获得的响应更多样化和复杂。总体而言，指令来回翻译结合了网络上发现的信息多样性和数量，同时确保响应的质量，这对于有效对齐是必要的。

🛎️文章简介

🔸研究问题：如何改进指令调优数的据生成方法来提高大语言模型（LLM）的性能。
🔸主要贡献：论文提出了一种新的指令生成方法，通过回译技术生成多样化的指令，并比较了重写与蒸馏两种方法的效果。

📝重点思路

🔺相关工作
🔸人工标注数据：人类注释了一系列的NLP任务，由于昂贵成本，这些数据集的规模往往相对较小。
🔸综合指令生成：一些论文提出了自动生成大量指令的方法，如回译技术，但网络获取的文本质量难以保证。
🔸蒸馏：指令调优数据生成中最常见的方法，通过向教师模型提供查询并获得输出，微调学生LLM来模仿教师LLM的功能。
🔸提高数据质量：一些工作研究了高质量指令调优数据的特征和管理技术，如LIMA和Evol-Instruct等。

🔺论文方案

🔸初始数据：基于种子示例微调基础模型，以获取指令生成能力，再对网络获取的候选响应生成相匹配的综合指令。
🔸数据评分：通过在种子示例上微调相同的基础模型来单独获得指令遵循模型，并用它来对（合成指令，网络抓取响应）对的质量进行评分。
🔸数据重写：对于得分最高的对，要求现有的对齐模型根据生成的指令和初始网络文本进一步改进响应。
🔸消融实验：比较了重写和蒸馏两种方法在指令调优数据生成中的效果。