北邮:多样化数据缩小LLM训练偏差

在这里插入图片描述

📖标题:DELIA: Diversity-Enhanced Learning for Instruction Adaptation in Large Language Models
🌐来源:arXiv, 2408.10841

摘要

🔸虽然指令调整广泛用于调整大型语言模型(LLMs)的行为,但广泛的经验证据和研究表明,这主要是一个过程,在这个过程中,模型适应于特定的任务格式,而不是获取新的知识或能力。我们认为,这种限制源于指令调整期间学习的有偏特征,这些特征与理想的任务特定特征不同,导致在下游任务中学习较少的基础语义。然而,理想特征是未知且无法计算的,限制了过去的工作依赖于先前的知识来协助推理或训练,这限制了LLMs的能力,而不是基于数据驱动的可扩展学习。
🔸在我们的论文中,通过我们的新颖数据合成方法DELIA(增强多样性学习以适应指令),我们利用LLMs训练中广泛的多样化数据的缓冲效应,将指令调整中的有偏特征转化为理想特征的近似值,而无需明确的先前理想特征。实验表明,DELIA相对于常见的指令调整和其他基线具有更好的性能。它在Icelandic-English翻译bleurt分数(WMT-21数据集,gemma-7b-it)上比常见的指令调整高出17.07%-33.41%,并在格式化文本生成(Llama2-7b-chat)上将准确性提高了36.1%。值得注意的是,在我们已知的知识注入方法中,DELIA是唯一将新特殊标记的内部表示与其先前语义对齐的方法。

🛎️文章简介

🔸研究问题:在大语言模型(LLM)中,指令调优主要是为了适应特定任务格式而无法传授新知识或能力。
🔸主要贡献:论文提出了DELIA方法,通过增强多样性的学习来改进指令适应性,显著提升了模型在各种任务上的表现。

📝重点思路

🔺相关工作

🔸指令调优局限:在模型可能对即时变化过于敏感时损害其稳健性,导致模型过拟合到特定的任务格式而非底层语义,可能是数据分布与现实分布之间的差异引起的。
🔸改进指令遵循:在框架层面提出了迭代式自我提高训练数据质量,在训练目标层面使用对抗性分类器减轻域过度拟合,在结构层面探索了多PEFT模块,在嵌入过程中引入噪声来改变训练过程提高泛化能力。
🔸模型改进的综合数据:数据合成已成为应对指令调整挑战的一种有前途的解决方案,提供了人类可解释的先验知识,包括操作指令定位、提取和合成原子事实等思路。

🔺论文方案

🔸主要思想:通过引入大量多样化的数据,缩小偏差特征与理想特征之间的差距
🔸理论推导:偏差源自指令措辞和固定训练指令,通过引入大量多样化的数据,将模型学习的梯度从接近指令调整数据的分布转化为接近理想任务分布的梯度。
🔸训练数据:包括从LLM中采样多样化的问答对,各向异性多样化下游任务指令,以及广泛地打乱这些组件进行训练。

🔎分析总结

🔸DELIA方法在语义表示学习方面显示出显著优势,随着样本量的增加,性能不断提升。
🔸与基线方法相比,DELIA最终达到了最低的L2范数。
🔸DELIA在低资源语言翻译任务中也表现出色,显示出其在语义学习方面的独特优势。

💡个人观点

论文的核心是引入多样化的数据,使模型能够学习更接近理想特征的表示,同时保持对下游任务的适应性。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值