论文笔记：《Few-Shot Object Detection via Variational Feature Aggregation》

最新推荐文章于 2024-10-15 22:56:56 发布

何不同风起~~~

最新推荐文章于 2024-10-15 22:56:56 发布

阅读量2.2k

点赞数 2

文章标签：目标检测论文阅读深度学习

原文链接：https://arxiv.org/pdf/2301.13411v1.pdf

版权

本文提出了一种基于元学习框架的特征聚合方法，包括类别无关的特征聚合（CAA）和变分特征聚合（VFA），旨在解决小样本目标检测中的类别偏差和样本方差敏感问题。CAA促进不同类别间的特征交互，而VFA利用变分自动编码器来估计类别分布，增强模型对新类的鲁棒性。实验结果显示，这些方法显著提高了小样本目标检测的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文笔记：《Few-Shot Object Detection via Variational Feature Aggregation》

一、基本信息

时间：2023
出版社：AAAI
主要链接：
文章下载
 代码下载

二、研究背景

由于小样本目标检测通常使用大量的基类样本进行训练，并在小样本的新类样本上进行微调，所以学习的模型偏于基类，对于新类样本的方差敏感。
为了解决该问题，本文提出基于元学习框架的两种特征聚合算法。

三、创新点

1.CAA，一种类别无关的特征聚合算法,聚合无关类别的支持特征和查询特征，有助于模型学习到类无关的特征表示，并减少基类与新类的混淆。
2.VAE,一种变分特征聚合算法，通过将样本编码为类别的分布，实现更加鲁棒的特征聚合。使用VFA变分自动编码器来估计类别的分布，并从基类样本方差更鲁棒的分布中抽样变分特征。
3.将分类与回归任务解耦，在不影响目标定位的情况下，在分类分支上进行特征聚合。

四、实验过程

4.1概述

以往的小样本目标检测流程:
stage1:使用丰富的基类样本在模型上训练,来学习目标检测任务。
stage2:使用少量的新类样本（小样本）对目标检测器进行微调。
出现的问题：
因为基类和新类样本之间的不平衡，学习得出的模型往往偏向基类，容易混淆新类目标和类似的基类。
因此，本文提出一个元学习框架来解决该问题。
1.首先，基于Meta R-CNN构建一个强大的基准模型。（意思是以这个模型做参考标准，来评估新的模型的效果好坏）
2.通过重新研究元学习框架中的特征聚合模块，提出CAA(类无关的特征聚合)和VFA(变分特征聚合)，来减少类别偏差，提升对样本方差的鲁棒性。

4.2详解

1.特征聚合是FSOD中的关键设计，定义了支持和查询样本的交互方式。以往的工作如Meta R-CNN采用了特定于类的聚合方式，即查询特征与同一类的支持特征聚合，忽略跨类的交互。
本文提出不同类别之间的特征聚合的CAA方法。
优点： 有助于模型学习到类无关的特征表示，减少模型对基类的偏向，因为不同类之间交互时模拟了类关系，所以可以避免基类与新类的混淆。CAA 允许不同类之间的特征聚合，进而鼓励模型学习类别无关的表示，从而减少类别间的偏向和类之间的混淆。
2.基于CAA,提出将支持样本编码为按类别的支持特征的VFA.可以达到类别内方差（如外观变化)在类内共享，并用公共分布建模。因此，我们可以使用基本类别的分布来估计新类类别的分布。通过变分自动编码器VAF将每个类建模为公共分布来达到上述目标。
3.首先在丰富的基类上训练VAE,然后在新类上对模型微调。通过将学习的类内方差转移到新类，仅用少量样本来估计新类的分布。
最后，我们对分布中的支持特征进行采样，并将其与查询特征进行聚合，来达到更稳健预测的目的。
4.我们还将分类和回归的任务解耦，便于特征聚合模块在不影响目标定位下，专注于学习平移不变性特征（translation-invariant features ）。

五、实验结果

实验数据：PASCAL VOC 、COCO
实验结果：
1.建立了一个强大的元学习基准框架R-CNN++,并提出一种简单有效的类无关聚合方法（CAA）
2.提出变分特征聚合（VFA），将实例级特征转换为类别级特征，实现稳健的特征聚合
3.以上方法显著改善了基准框架Meta R-CNN，实现了FSOD的最新技术。例如，在新类的PASCAL VOC集合1上，我们以9%~16%的优势优于基线，以3%-7%的优势优于先前的最佳结果。
实验背景：
采取Meta R-CNN和TFA为基准框架，在构建Meta R-CNN++时，遵循了Meta R-CNN的体系结构，但是大多超参数与TFA对齐

a)参数冻结（param freeze)采用TFA的参数冻结，Meta R-CNN++优于Meta R-CNN，甚至nAP优于TFA
b)余弦分类器（cosine cls）
c)最后一层初始化（last layer init）
表格结论：
我们遵循了TFA并复制基类的预训练分类器权重。在Meta R-CNN上改进也可以保持基类的性能。上述实验表明，只要认真处理微调阶段，元学习仍然是FSOD的有效研究方向。
类无关聚合详解
特征聚合是基于FSOD的元学习中的一个重要模块。许多工作都采用特定于类的聚合方案。前面的Meta R-CNN通常采用类别相关特征聚合CSA(class-specific aggregation),即同类Query和Support 样本的特征进行特征聚合。
与此相反，本文提出的 CAA 允许不同类样本之间的特征聚合*。由于 CAA 鼓励模型学习类别无关的表示，其降低了模型对基类的偏向。此外，不同类之间的交互能够更好地建模类别间的关系，从而降低了类别的混淆。
在这里插入图片描述
具体来说，对于类别i ∈ C的每个Rol特征
和一组支持特征，我们随机选择一个类的支持特征的与查询特征聚合。
然后我们将聚合特征提供给检测子网络FD以输出分类得分

变分特征聚合详解
基于 CAA，本文又提出了 VFA，其采用变分编码器（VAEs）将支持样本编码为类的分布，并从学习到的分布中采样新的支持特征进行特征融合。相关工作 [1] 指出类内方差（如外观的变化）在不同类之间是相似的，并且可以通过常见的分布进行建模。因此我们可以利用基础类的分布来估计新颖类的分布，进而提高少样本情况下特征聚合的鲁棒性。
在这里插入图片描述
FQ:查询特征编码器，FS:支持特征编码器，A:特征聚合器,FD:检测头
其中，FQ和FS共享大多数参数，A是通道计算操作channel-wise product operation,
首先输入支持集到FS生成类特定地支持特征Si，查询集输入到FQ生成一组Rol的特征。然后，我们将每个Qm和Si与特征聚合器A聚合。最后，聚合特征在这里插入图片描述
被输入到检测头FD来产生最终预测。

六、结果与思考

6.1作者结论

对比以前的工作：
以下工作探索了元学习体系结构的不同设计，例如特征聚合方案 (Xiao和Marlet 2020; Fan等人。2020; Hu等人。2021; Zhang等人。2021; Han等人。2021) 和特征空间增强 (Li等人2021a；李和李2021)。与元学习不同，Wang等人提出了一种简单的两阶段微调方法TFA (Wang等人2020)。TFA表明，只有对最后一层进行微调才能显着提高FSOD性能。由于TFA的结构简单，因此提出了一系列遵循TFA的作品 (Sun等人2021; Zhu等人2021; Qiao等人2021; Cao等人2021)。在这项工作中，我们建立了一个强大的元学习基线，甚至超过了微调基线TFA。然后，我们重新审视了特征聚合方案，并提出了两种新颖的特征聚合方法CAA和VFA，从而实现了FSOD的最新技术。
作者的工作：
变分特征学习
给定输入图像/特征，可以将其转换为带有VAEs的分布。通过从分布中采样特征，可以对定义类特征的类内方差进行建模。
变分特征学习范例广泛应用于各种任务中，如0/少样本学习、度量学习和解纠缠学习。
在这项工作中，我们使用在丰富的基类样本时尚训练的VAEs，来仅用几个样本来估计新类的分布。此外，我们还提出一种一致性损失，使模型产生特定于类别的分布。