阿里:LLM训练过程的差异化知识蒸馏

在这里插入图片描述

📖标题:DDK: Distilling Domain Knowledge for Efficient Large Language Models
🌐来源:arXiv, 2407.16154

🛎️文章简介

🔸研究问题:大语言模型(LLM)的知识蒸馏过程中,如何减少教师模型和学生模型在不同领域间的性能差异。
🔸主要贡献:论文提出了一种名为DDK的方法,根据教师和学生模型之间的领域性能差异,平滑地动态调整蒸馏数据集的组成,使得蒸馏过程更加稳定和有效。

📝重点思路

🔺相关工作

🔸LLM:标志着自然语言处理领域的一个重要里程碑,指令调优和通过人类反馈学习进一步对齐,但伴随着大量资源消耗。
🔸知识蒸馏:模型压缩和加速中的关键技术,主要用于将知识从强大的、训练有素的教师模型转移到紧凑的学生模型。

🔺论文方案

🔸构建初始数据集:从训练语料库中随机采样初始蒸馏数据。
🔸领域知识采样:均匀优化会导致潜在的性能下降,因此计算教师和学生模型在不同域的性能差异作为“域差异因子”,重点采样表现不佳的领域,从而动态更新数据混合。
🔸因子平滑更新:观察到域差异因子在整个过程中表现出显着的波动,为了避免训练过程中采样比例频繁变动,引入平滑系数来保证域采样概率的稳定性。

🔎分析总结

🔸教师模型在知识迁移时的匮乏表现,极大地阻碍了学生模型在复杂任务中的能力。
🔸不同类型的教师和学生模型,DDK都优于其他基线方法,缓解了域数据混合的性能瓶颈。
🔸不同领域的性能增益有所不同,在推理任务取得了显著的性能提升。

💡个人观点

领域知识学习的难易程度不同,论文考虑了平衡学习难度,并增强了训练过程的稳定性。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 9
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值