知识蒸馏-KD

1.教师模型(结构复杂参数大)提供知识,学生模型(轻便)通过蒸馏训练来获取教师的知识。控制学习内容的宽松程度,先概况再具体。

从大模型里提取出一少部分想要的内容。

2.原理

概率就是输出,通过学习将输出更靠近标签。

这个公式中,不会只考虑true class部分的损失,还会把所有的class的也考虑。随后更新model的参数。

4.不同点

硬标签(真实答案)

软标签(概率分布)

学生不是单纯的记label/答案,而是教师告诉学生哪部分是对的 哪部分是错的 提供负样本,学生学习的是老师提供的概率分布,可以理解为从学习答案到学习“为什么”的转变。提高鲁棒性。

类似蒸馏的过程,我们可以通过调节温度即超参数T,来控制概率的分布程度。当0<T<1时,会放大分布的差异。T>1时,会缩小差异显得更平均,模型可能不知道该学啥了。

5.框架

表示既从老师的概率输出中学习,又学习了课本上的硬标签。求得两个loss,根据公式同时考虑两个loss。

6.运用 详见ppt最后

可以一个学生请教多个老师,也可以多个学生互相学习。比较灵活。 

7.实例

 

  • 18
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
知识蒸馏(Patient-kd)是一种教学方法,旨在帮助学生更好地理解和消化知识。这种教学方法源自于机器学习领域的知识蒸馏算法,通过将复杂的模型精简为简单的模型,让学生可以更易于理解和掌握知识。 在知识蒸馏教学方法中,教师会首先使用高质量的教学资源和教材,来传授给学生深入的知识。然后,教师通过提问、举例、讨论等方式来帮助学生理解和巩固所学知识。 与传统的教学方法相比,知识蒸馏教学方法在以下几个方面有所不同: 1. 简化信息:教师会将复杂的知识内容简化为易于理解的形式,帮助学生更好地吸收知识。 2. 关注实践:教师注重培养学生的实际操作能力,通过实践任务和案例分析来促进学生应用所学知识。 3. 个性化指导:教师会根据学生的学习情况和个性化需求来调整教学方式和内容,实现个性化指导。 知识蒸馏教学方法的目标是提高学生的学习效果和质量,使他们能够真正理解和运用所学知识。通过这种方法教学,学生可以更深入地理解知识,提高学习能力和解决问题的能力。 最后,知识蒸馏教学方法在教育领域中具有重要意义,可以帮助学生更好地学习和掌握知识,提高学习效果。它是一种注重理论与实践结合的教学方式,可以更好地满足学生不同的学习需求,对于培养学生综合素质和创新能力有着积极的作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值