Exploring Categorical Regularization for Domain Adaptive Object Detection

文章信息

论文地址

原文
代码

前言

目标检测是计算机视觉中的重要问题,要求同时获得图像中物体的类别信息和位置信息。随着深度学习技术的不断进步,基于深度学习的目标检测模型取得了很好的效果。但是,深度学习模型的优良表现依赖于大量高质量的标注数据,在跨域问题中,用有标签的源域数据训练的目标检测模型,在无标签或少标签的目标域数据上的表现并不是很理想。于是就有了域自适应方法和目标检测模型结合的工作,例如,Domain adaptive Faster R-CNN for object detection in the wild.(简称DA Faster R-CNN) 和Strong-weak distribution alignment for adaptive object detection. (简称SW Faster R-CNN)等。本文就是基于之前工作提出进一步改进。

之前工作存在的不足

1.对于图像中域间差距较大背景部分进行了对齐,影响模型跨域性能。
2.模型对于图像中包含主要物体的关键区域重视不足。
3.模型对于图像中难分类的物体重视不足。

文章主要贡献

文章主要思想是希望目标检测模型专注于对齐目标相关区域和难分类的实例物体,具体包括:

1.提出图像级类别正则化Image-level categorical regularization (ICR),目的是获取包含主要物体的图像关键区域的分类信息。

2.提出分类一致性正则化Categorical Consistency Regularization(CCR)模块,采用图像级和实例级预测之间的一致性作为是否为难分类实例的度量准则。

3.上述两点可作为插件,灵活和其他模型进行组合,不会引入超参数且不需要额外的标注数据。

方法

整体结构

论文整体结构是基于DA Faster R-CNN的结构,使用backbone最后一层特征图作为ICR的输入,ICR的输出结果和实例分割的结果作为CCR的输入。ICR的loss反馈backbone,CCR的结果作为权值调整实例对齐的loss。

在这里插入图片描述

Image-level categorical regularization (ICR)

ICR的本质是一个多标签图像分类器,采用1×1的卷积实现。目标检测模型backbone网络最后一层输出的特征图进行平均池化后作为ICR的输入。因此,ICR部分的loss为标准的多标签cross-entropy:
在这里插入图片描述
其中,C为类别总数,y^c为ground truth,y ̂^c为ICR预测标签。
ICR模块主要是利用了多标签分类器的弱定位特性来训练backbone关注那些包含了主要目标的重要区域。

在这里插入图片描述

具体如原文中热力图所示,图像中包含主要目标的区域会获得较高的激活值,而无关的背景区域则因为没有分类标签,而获得较低的激活值。

categorical consistency regularization (CCR)

CCR主要目的是为了让模型重视那些难分类的实例,具体是对不同实例赋予不同权重。论文采用图像级预测和实例级预测的类别一致性作为实例分类难度的衡量值,并使用该度量值作为实例对齐中的权重。计算公式为:
在这里插入图片描述
其中,y ̂^c为图像包含类别c实例的概率,p ̂_j^c为图像中第j个实例类别为c的概率。
添加了该权重后,实例对齐的loss为:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值