[2020Arxiv]Distilling Object Detectors with Task Adaptive Regularization 论文笔记

本文介绍了从教师模型中学习有效知识的策略,通过特征蒸馏、分类头和回归头的蒸馏,仅关注教师模型的正样本信息。在特征蒸馏中,采用高斯mask针对目标周围区域进行蒸馏。同时,实施蒸馏损失权重衰减,随训练进程逐渐降低教师影响,以促进学生模型的自主学习。
摘要由CSDN通过智能技术生成

出发点

并非teacher的所有知识都值得学习,所以只学习teacher比较好的部分,以及gt周围的区域。

method

1.特征蒸馏

选取了backbone特征,具体做法是:以target中心为高斯mask中心,生成一个二维的高斯mask,利用该mask对backbone特征进行蒸馏。
在这里插入图片描述
在这里插入图片描述

注意,因为是backbone特征,还不是特别高层次的语义特征,所以才选择一个区域。如果是head之类的地方,选择一个区域的做法是不太合理的,因为在高层次语义特征中,目标的信息已经编码到一个像素点了。

2.分类头蒸馏

teacher使用的是student的RPNhead,感觉怪怪的。只学习teacher有用的信息,即:只学习teacher的正样本分类信息,负样本带来噪声。因此,只对T的positive samples进行分类结果蒸馏,蒸馏损失为BCE loss。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值