文章目录
相关资料
论文:Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning
代码:https://github.com/lizzy8587/CastDet
摘要
遥感图像数量的日益增加促进了可扩展目标检测器的发展,这些检测器能够在无需昂贵地收集新的标记数据的情况下,检测超出训练类别的对象。在本文中,我们旨在开发一种开放词汇目标检测(OVD)技术,用于航空图像,该技术能够将目标词汇量扩展到超出训练数据的范围。开放词汇目标检测性能的基本挑战在于:类别不可知区域提议的质量和能够很好地泛化到新目标类别的伪标签。为了同时生成高质量的提议和伪标签,我们提出了CastDet,一个CLIP激活的师生开放词汇目标检测框架。我们的端到端框架遵循学生-教师自学习方法,采用RemoteCLIP模型作为一个额外的全知教师,拥有丰富的知识。通过这样做,我们的方法不仅提升了新目标提议,还提升了分类。此外,我们设计了一个动态标签队列策略,在批量训练期间维持高质量的伪标签。我们在多个现有的航空目标检测数据集上进行了广泛的实验,这些数据集是为OVD任务设置的。实验结果表明,我们的CastDet在开放词汇检测性能上取得了卓越的成绩,例如,在VisDroneZSD数据集上达到了40.5%的mAP,比之前的方法Detic/ViLD分别提高了23.7%/14.9%。据我们所知,这是第一次将开放词汇目标检测技术应用于航空图像的工作。
引言
充足且准确的注释对于检测器训练来说是时间和劳动密集型的,甚至需要人类专家策划数据集。这阻碍了检测器在开放世界场景中的扩展。结果,当前的航空目标检测数据集,尽管进行了广泛的收集工作,但与自然图像数据集相比,在大小和类别词汇量上仍然较小。
从正面视角拍摄的自然图像通常展示清晰的轮廓和纹理,对于训练在丰富对象类别上的类不可知区域提议网络(RPN)显示出对未见类别的提议生成具有出色的泛化能力。相比之下,从上方视角拍摄的航空图像只能捕捉到对象顶部表面的微弱外观特征。经常发生对象与周围背景具有相似外观的干扰,使得区分感兴趣的对象和背景噪声变得复杂。例如,机场(AIRPORT)与高速公路(HIGHWAY)在局部上相似,而常见数据集通常将高速公路视为背景,这使得模型很难检测到新型别机场,如图2(a)∼(b)所示。这降低了航空图像OVD中新型别的召回率,如图2©所示。
为了解决上述问题,我们提出了一个简单但有效的航空开放词汇对象检测框架,名为CastDet,这是一个由CLIP激活的师生检测器。我们的航空OVD检测框架遵循多教师自学习机制,包括三个模型:
- 负责探测器训练的学生模型,该模型由两个教师模型指导;
- 定位教师模型主要负责发现和定位潜在对象;
- 外部教师用于将新类别分类为额外的伪标签。
我们将RemoteCLIP作为一个拥有丰富外部知识的额外教师纳入师生学习过程中。RemoteCLIP是一个视觉-语言基础模型,用于遥感图像解释,它在大规模遥感图像-文本对上进行了预训练,遵循CLIP框架,具有显著的泛化能力。
我们提出了一个动态标签队列来存储和迭代更新由RemoteCLIP获得的伪标签。我们提出了一个混合训练机制,包括带有真实标签的标记数据和由定位教师生成的未标记数据的伪标签,以及由外部教师通过动态标签队列生成的伪标签数据。
与以前的基于CLIP的方法不同,这些方法直接从CLIP转移知识进行零样本识别,我们的CLIP激活的师生交互自学习框架将来自RemoteCLIP的高置信度知识作为激励,指导学生和定位教师更新他们的知识库。我们的交互式自学习机制促进了一种“飞轮效应”,其中外部教师转移知识以加强定位教师发现“未见”对象的潜在区域并识别它们的类别,而定位教师反过来为外部教师生成更准确的伪框。通过我们的师生交互学习方案,我们的检测模型可以不断更新,以定位和识别不断扩展的对象类别词汇表,提高召回率和准确性。
方法
问题描述
给定一个标记的检测数据集 L L L,其注释在一组基础类别 C base C_{\text{base}} Cbase 上,以及一个未标记的数据集 U U U,其中可能包含新型类别 C novel C_{\text{novel}} Cnovel。我们的训练数据集包括标记数据和未标记数据,即, D train = L ∪ U = { ( I 1 , y 1 ) , … , ( I n , y n ) , I n + 1 , … , I n + m } D_{\text{train}} = L \cup U = \{(I_1, y_1), \ldots, (I_n, y_n), I_{n+1}, \ldots, I_{n+m}\} Dtrain=L∪U={(I1,y1),…,(In,yn),In+1,…,In+m},其中 I i ∈ R H × W × 3 I_i \in \mathbb{R}^{H \times W \times 3} Ii∈RH×W×3 指的是第 i i i 个图像,其标签 y = { ( b i , c i ) } y = \{(b_i, c_i)\} y={(bi,ci)} 由边界框坐标 b i ∈ R 4 b_i \in \mathbb{R}^4 bi∈R4 和它们的类别 c i ∈ R C base c_i \in \mathbb{R}^{C_{\text{base}}} ci∈RCbase 组成。我们的目标是训练一个能够检测基础和新型类别的探测器,即 C test = C base ∪ C novel C_{\text{test}} = C_{\text{base}} \cup C_{\text{novel}} Ctest=C