阿里：LLM训练过程的差异化知识蒸馏

大模型任我行

于 2024-08-21 14:25:23 发布

阅读量382

点赞数 9

分类专栏：大模型-模型训练文章标签：人工智能自然语言处理语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141392595

版权

大模型-模型训练专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：DDK: Distilling Domain Knowledge for Efficient Large Language Models
🌐来源：arXiv, 2407.16154

🛎️文章简介

🔸研究问题：大语言模型（LLM）的知识蒸馏过程中，如何减少教师模型和学生模型在不同领域间的性能差异。
🔸主要贡献：论文提出了一种名为DDK的方法，根据教师和学生模型之间的领域性能差异，平滑地动态调整蒸馏数据集的组成，使得蒸馏过程更加稳定和有效。

📝重点思路

🔺相关工作

🔸LLM：标志着自然语言处理领域的一个重要里程碑，指令调优和通过人类反馈学习进一步对齐，但伴随着大量资源消耗。
🔸知识蒸馏：模型压缩和加速中的关键技术，主要用于将知识从强大的、训练有素的教师模型转移到紧凑的学生模型。

🔺论文方案

🔸构建初始数据集：从训练语料库中随机采样初始蒸馏数据。
🔸领域知识采样：均匀优化会导致潜在的性能下降，因此计算教师和学生模型在不同域的性能差异作为“域差异因子”，重点采样表现不佳的领域，从而动态更新数据混合。
🔸因子平滑更新：观察到域差异因子在整个过程中表现出显着的波动，为了避免训练过程中采样比例频繁变动，引入平滑系数来保证域采样概率的稳定性。

🔎分析总结

🔸教师模型在知识迁移时的匮乏表现，极大地阻碍了学生模型在复杂任务中的能力。
🔸不同类型的教师和学生模型，DDK都优于其他基线方法，缓解了域数据混合的性能瓶颈。
🔸不同领域的性能增益有所不同，在推理任务取得了显著的性能提升。

💡个人观点

领域知识学习的难易程度不同，论文考虑了平衡学习难度，并增强了训练过程的稳定性。

附录

在这里插入图片描述

大模型任我行

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
阿里：LLM训练过程的差异化知识蒸馏

大语言模型（LLM）的知识蒸馏过程中，如何减少教师模型和学生模型在不同领域间的性能差异？论文提出了一种名为DDK的方法，根据教师和学生模型之间的领域性能差异，平滑地动态调整蒸馏数据集的组成，使得蒸馏过程更加稳定和有效。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。