北邮：多样化数据缩小LLM训练偏差

大模型任我行

于 2024-09-03 08:00:00 发布

阅读量278

点赞数 5

分类专栏：大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141817186

版权

大模型-模型训练专栏收录该内容

21 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：DELIA: Diversity-Enhanced Learning for Instruction Adaptation in Large Language Models
🌐来源：arXiv, 2408.10841

摘要

🔸虽然指令调整广泛用于调整大型语言模型（LLMs）的行为，但广泛的经验证据和研究表明，这主要是一个过程，在这个过程中，模型适应于特定的任务格式，而不是获取新的知识或能力。我们认为，这种限制源于指令调整期间学习的有偏特征，这些特征与理想的任务特定特征不同，导致在下游任务中学习较少的基础语义。然而，理想特征是未知且无法计算的，限制了过去的工作依赖于先前的知识来协助推理或训练，这限制了LLMs的能力，而不是基于数据驱动的可扩展学习。
🔸在我们的论文中，通过我们的新颖数据合成方法DELIA（增强多样性学习以适应指令），我们利用LLMs训练中广泛的多样化数据的缓冲效应，将指令调整中的有偏特征转化为理想特征的近似值，而无需明确的先前理想特征。实验表明，DELIA相对于常见的指令调整和其他基线具有更好的性能。它在Icelandic-English翻译bleurt分数（WMT-21数据集，gemma-7b-it）上比常见的指令调整高出17.07％-33.41％，并在格式化文本生成（Llama2-7b-chat）上将准确性提高了36.1％。值得注意的是，在我们已知的知识注入方法中，DELIA是唯一将新特殊标记的内部表示与其先前语义对齐的方法。

🛎️文章简介

🔸研究问题：在大语言模型（LLM）中，指令调优主要是为了适应特定任务格式而无法传授新知识或能力。
🔸主要贡献：论文提出了DELIA方法，通过增强多样性的学习来改进指令适应性，显著提升了模型在各种任务上的表现。

📝重点思路

🔺相关工作

🔸指令调优局限：在模型可能对即时变化过于敏感时损害其稳健性，导致模型过拟合到特定的任务格式而非底层语义，可能是数据分布与现实分布之间的差异引起的。
🔸改进指令遵循：在框架层面提出了迭代式自我提高训练数据质量，在训练目标层面使用对抗性分类器减轻域过度拟合，在结构层面探索了多PEFT模块，在嵌入过程中引入噪声来改变训练过程提高泛化能力。
🔸模型改进的综合数据：数据合成已成为应对指令调整挑战的一种有前途的解决方案，提供了人类可解释的先验知识，包括操作指令定位、提取和合成原子事实等思路。

🔺论文方案

🔸主要思想：通过引入大量多样化的数据，缩小偏差特征与理想特征之间的差距
🔸理论推导：偏差源自指令措辞和固定训练指令，通过引入大量多样化的数据，将模型学习的梯度从接近指令调整数据的分布转化为接近理想任务分布的梯度。
🔸训练数据：包括从LLM中采样多样化的问答对，各向异性多样化下游任务指令，以及广泛地打乱这些组件进行训练。