从标签平滑的角度理解知识蒸馏

本文探讨了知识蒸馏和标签平滑在深度学习中的作用,解释了它们如何提高模型泛化能力。标签平滑通过引入噪声到one-hot标签来降低模型对确定性标签的依赖,而知识蒸馏则利用教师模型的软标签来指导学生模型学习,尤其在模型压缩中表现出色。两者在降低硬标签信任度上有相似之处,但知识蒸馏提供了自适应的软标签,通常能获得更好的效果。
摘要由CSDN通过智能技术生成

知识蒸馏(knowledge distillation)在模型压缩领域使用十分广泛,主要目的是通过大模型的知识通过某种方式定义出来,并进一步输入给小模型,使小模型达到更高的泛化精度。更广义的来说,无所谓"大小",提供知识的模型被称作教师模型,接受知识的模型被称作学生模型,教师模型并不一定非要比学生模型"大"。相关研究表明,知识蒸馏的作用类似于可学习的标签平滑,本博客对此简单介绍。

标签平滑-Label Smoothing

分类任务的训练大多依赖于softmax归一化+交叉熵损失,将离散化的标签转换成向量形式的过程称之为one-hot编码过程。
图源
图源:cloud.tencent.com/developer/article/1815786

如图,假设我们收集了数据集包含{飞机,鸟,猫,狗,汽车,拖拉机},那么第2类样本(鸟),就被one-hot编码为010000
为了使one-hot编码下的交叉熵损失达到零(即不在提供梯度),需要y_true>>y_false, 其中y_true,y_false为网络针对该样本对于正确类以及错误类别输出的logits,而由于梯度范围有限,要达成"远大于"的条件十分困难,会导致网络泛化能力下降。

标签平滑的思路十分简单,为确定性的one-hot标签编码带来噪声,噪声量

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值