识蒸馏十大关键概念详解:从教师-学生范式到模型压缩和重生网络

知识蒸馏(Knowledge Distillation)任务通常会使用以下术语和表述:

  1. Knowledge Distillation (KD): 知识蒸馏的直接称呼,指从一个大型复杂的教师模型(teacher model)中提取知识,并传递给一个小型简单的学生模型(student model)的过程。
  2. Teacher-Student Framework: 教师-学生框架,描述知识蒸馏中的双模型结构,即先用数据训练一个性能强大的教师模型,再用教师模型指导学生模型的训练,使其达到相近的性能水平。
  3. Model Compression: 模型压缩,知识蒸馏的主要动机之一,即通过蒸馏获得参数更少、计算更快的学生模型,便于部署和应用。
  4. Knowledge Transfer: 知识迁移,指教师模型向学生模型传递其学习到的知识表示和决策能力,使学生模型能够继承和吸收教师模型的优点。
  5. Soft Targets: 软目标,指用教师模型的预测概率分布(而非硬标签)作为学生模型训练的监督信号,可以传递更多的知识和信息。
  6. Temperature Scaling: 温度缩放,一种用于软化教师模型预测概率分布的技巧,通过调节温度参数控制分布的平滑度,以便学生模型更好地学习。
  7. Kullback-Leibler (KL) Divergence: KL散度,常用于度量学生模型和教师模型预测分布之间的差异,作为蒸馏过程中的损失函数之一。
  8. Hint Learning: 提示学习,一种蒸馏的变体方法,让教师模型的中间层输出(而非最终预测)指导学生模型的训练,以传递更细粒度的知识。
  9. Born-Again Networks: 重生网络,指用知识蒸馏迭代训练同构网络(即教师和学生有相同的架构),使模型性能不断提升的方法。
  10. Self-Distillation: 自蒸馏,一种特殊形式的知识蒸馏,where the student and teacher models are identical, aiming to improve the model’s own knowledge and performance.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

芝士AI吃鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值