蒸馏法第三节——蒸馏法&检测任务_蒸馏学习的检测-CSDN博客

本文链接：https://blog.csdn.net/whatwho_518/article/details/95583754

博客介绍了三篇目标检测相关论文。第一篇使用fitnet拟合教师网络中间层，学习强分类模块，用权重交叉熵损失解决类别不平衡；第二篇让学生网络专注学习“感兴趣的特征区域”，用L2损失稳定训练；第三篇先训练教师网络，对特征图量化后指导量化的学生网络。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【1】G. Chen, W. Choi, X. Yu, T. Han, and M. Chandraker. Learning efficient object detection models with knowledge distillation. In Advances in Neural Information Processing Systems, pages 742–751, 2017

首先，使用fitnet方法去拟合教师网络的中间层输出，

然后，学习强分类模块RPN RCN；为了解决类别不平衡问题，蒸馏模型使用权重交叉熵损失函数，整体学习目标如下：

解决不均衡类别问题：

其中: 下面公式中前一项是学生网络去学习真实的标签，后一项是学习教师网络

其中学习教师网络使用交叉熵函数;

解决教师网络上限问题：学生网络需要尽可能和真实标签接近，一旦学生网络的质量超越教师网络时，下面公式的Lb就为0，即教师网络不再指导学生网络。

隐层学习问题：参考fitnet学习方法，需要教师网络和学生网络的隐层损失函数尽可能接近，如下所示，其中需要保证教师网络和学生网络隐层的神经元数量（长、宽、通道数）保持一致。为了保证通道数一致，在学生网络的guided 层后面加个自适应层，实验发现即使学生和教师网络该层的通道数一致，自适应层也可以更有效的获得知识transfer。

【2】Q. Li, S. Jin, and J. Yan. Mimicking very efficient network for object detection. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7341–7349. IEEE, 2017. ——目标检测

目标检测任务要比识别任务的网络设置更复杂，输出层除了要有类别信息还需要有bounding-box，

创新点1：由于全连接卷积特征图的维度太高，希望学生网络能够更专注于学习“感兴趣的特征区域” 而不是所有特征。局部区域特征可以通过对bounding-box采样得到，bounding-box包含小网络和大网络使用金字塔池化后的不同大小不同比例的特征图。

网路的目标函数如下：其中Lm是学生网络学习教师网络的中间特征层，蒸馏法学习的损失。

背景介绍「上面公式中的Lgt使用文献fast r-CNN的方法，同下面公式，

这是个组合损失函数，其中前一项是Lcls(p, u) = − log pu 是关于真实类别的对数损失，即当前图像属于某个类别u（人脸，汽车）的概率；第二项是对于类别u（人脸，汽车），bounding-box回归的目标函数，后面一项方括号的意思是当u类别存在，该值才为1 ，通过约定将所有的背景像素都设为0，因为背景像素不存在boundingBox ，其中bounding Box回归使用下面的公式