阅读论文:Locally-Enriched Cross-Reconstruction for Few-Shot Fine-Grained Image Classification

文章提出LCCRN,一种针对细粒度图像分类的新方法,通过局部内容丰富模块学习判别性特征,交叉重构模块融合局部与外观细节。实验表明LCCRN在细粒度图像分类上性能优于现有方法。
摘要由CSDN通过智能技术生成

论文标题: Locally-Enriched Cross-Reconstruction for Few-Shot Fine-Grained Image Classification
翻译: 基于局部增强交叉重构的少镜头细粒度图像分类

摘要

解决问题: 当仅采用通常嵌入模块的基本特征进行重建时,对判别局部信息的阐述并不充分,而判别局部信息对于判别高相似性的细粒度图像的子类别至关重要。
创新: 我们提出了一种新的局部内容丰富交叉重建网络(LCCRN),用于小样本细粒度分类。
在LCCRN中,我们设计了两个新的模块:局部内容丰富模块(LCEM)用于学习判别性局部特征,交叉重构模块(CRM)用于将局部特征与从单独嵌入模块获得的外观细节充分融合。
分类分数的计算基于交叉重构任务的重构误差加权和,权重从训练过程中学习。
代码 可在https://github.com/lutsong/LCCRN中获得。

介绍

细粒度数据有很多子类别,每个子类别都有很少的标记样本,这是评估few-shot算法分类性能的自然选择。
基于度量的方法是少数样本分类的有效解决方案。他们通过测试样本与类之间的相似性或不相似性来确定测试样本的类隶属度,这是通过度量函数来评估的,例如简单的预定义余弦相似度和欧几里得距离,以及可以从数据中学习的更高级的非线性函数和网络。
然而,传统的基于度量的方法通常不能很好地处理细粒度图像,因为它们没有考虑到子类别之间的高度相似性。为了对细粒度图像进行精确分类,提取能够区分子类别的判别特征是成功的关键之一。Li等人提出了双相似度网络(BSNet),利用两种相似度度量来学习每个类的不同特征。
Huang等人提出了涉及双线性池化操作的低秩成对对齐双线性网络(LRPABN),以捕捉支持图像和查询图像之间的细微差异。Huang等人后来提出了目标导向对齐网络(TOAN),通过匹配支持和查询特征来显式减小类内方差,同时通过提取判别性细粒度特征来扩大类间方差。
Wertheimer等设计的feature map reconstruction networks (FRN)对于细粒度图像也能提供优异的分类性能。FRN旨在解决基于度量的方法中的一个问题:度量函数通常度量两个向量之间的相似性或不相似性,而将卷积模块提取的三维特征映射转换或重塑为向量可能导致空间信息的丢失。在FRN中,支持集中的每个类的特征映射被汇集到一个单一的二维支持特征矩阵中,每一列代表一个通道的连接特征映射。为了对查询图像进行分类,通过脊回归公式对每一类支持特征的加权和重建其特征映射的每个位置,并利用重建误差计算度量分数。由于它们的嵌入是相似的,所以可以很好地通过它们对应类的特征图进行重构,而它们很难被错误的类进行重构,导致重构误差很大。因此,通过重建过程,可以保留外观细节,以帮助区分子类别。
然而,在FRN中,当简单地采用通常嵌入模块中的基本特征进行重建时,没有很好地考虑对细粒度图像分类至关重要的判别性局部特征。例如,在图1中,基本特征捕获了大部分飞机,但也涉及到飞机周围的大片烦人的天空背景。因此,为了进一步提高FRN特征重构框架下的分类性能,我们提出了一种局部内容丰富的交叉重构网络(LCCRN),其中局部内容提取模块学习局部信息,辅助细粒度少镜头图像分类。利用新的局部内容提取模块,局部内容富集特征如图1最后一行所示,可以更加集中在飞机的局部区域,去除大部分背景。
在这里插入图片描述
除了本地内容丰富的特性之外,我们还通过一个单独的嵌入模块生成一组额外的基本特性,以保留外观细节。为了充分利用这两种特征的优点,我们提出了新的交叉重构模块,通过脊回归重构同时关注外观细节和局部信息的查询特征。“交叉重建”的意思是重建任务是跨不同的特征类型进行的,例如,从相应的局部内容丰富的特征重建查询图像的基本特征,反之亦然。通过这种方式,探索了基本特征与其邻域之间的关系,使模型能够更多地了解图像中呈现的局部信息。在训练过程中学习,分类分数基于交叉重构任务的重构误差加权和,权重自适应确定。在四个细粒度图像数据集上的实验表明,LCCRN的分类性能优于最先进的方法。
总而言之,我们的贡献有三个方面:

  1. 我们提出了一种新的局部内容丰富的交叉重建网络(LCCRN),用于少镜头细粒度图像分类。
  2. 我们提出了一个新的局部内容提取模块(LCEM)来探索特征映射中的判别性局部信息,这有助于对图像的语义理解。
  3. 们设计了一种新的交叉重构模块(CRM),以利用基础和本地内容丰富的特征表示,使外观细节和本地信息的学习成为可能。

相关工作

基于度量的少镜头图像分类方法

基于度量的小镜头图像分类方法旨在学习一种度量函数,根据度量空间中评估的相似性或不相似性来区分图像类别。例如:
匹配网络(MatchNet)利用注意机制进行特征嵌入,并采用余弦相似度。
原型网络(ProtoNet)用一个原型来表示每个类,并通过其到类原型的欧氏距离对测试样本进行分类。
关系网络(RelationNet)通过学习一个度量模块来评估测试样本和类原型之间的关系分数,从而改进了原型网络。
图像之间的相似度也可以通过图神经网络(GNN)来衡量,它考虑任务中任意两幅图像之间的相似度。一些基于度量的方法可以为细粒度图像提供有希望的分类结果,因为它们旨在提取更多的判别特征。例如,深度最近邻神经网络(DN4)采用基于局部描述符的图像到类度量来保留局部判别信息。仅采用一种度量函数可能无法很好地捕捉子类别之间的细微差异,因此双相似度网络(BSNet)采用两种不同的相似度度量来学习更具判别性的特征映射。低秩成对对齐双线性网络(LRPABN)可以通过双线性池化操作来利用支持图像和查询图像之间的细微差异。
与以往的方法不同,LCCRN涉及四个重建任务,以利用有区别的局部信息。因此,LCCRN计算重构任务的重构误差加权和作为分类的度量。
在这里插入图片描述
我们用橙色、黄色和蓝色来表示支持图像的三个子类别,用绿色来表示查询图像。
将原始图像馈送到嵌入模块fφ,得到基本表示Ps和Pq,再由局部内容提取模块(LCEM)将其转换为局部内容丰富的特征表示Zs和Zq。通过不与fφ共享参数的嵌入模块fψ获得了一组单独的基表示b和Bq。然后,交叉重构模块通过两类支持特征对两类查询特征进行交叉重构,产生4个重构任务。最后,根据加权重构误差计算度量分数。
Qzzn,Qzbn,Qbzn,QBBn表示基于支持集的第n类重构的4个查询图像。ωZZ, ωZB, ωBZ, ωBB表示对应的权重,用于计算查询图像的加权重构分数。

基于特征对齐的少拍图像分类

特征对齐方法通常旨在对齐相似对象的空间位置,以提高图像之间的相似性。位置感知关系网络(PARN)计算特征的任意两个位置之间的相似性,而不考虑它们的空间距离,因此可以为具有不相同位置的相关物体的图像提供高相似性。语义对齐度量学习(semantic alignment metric learning, SAML)采用集合选择策略,对语义相关的局部区域赋予更高的权重。DeepEMD使用地球移动距离(Earth Mover’s Distance, EMD)来计算两幅图像之间的结构相似性。交叉变压器(CTX)通过基于变压器的网络,通过空间相关特征确定两幅图像之间的相似性。全局-局部交互度量学习(global-local interplay metric learning, GLIML)将图像标签语义的全局信息与局部特征进行语义对齐,可以减少与全局信息无关的语义。FRN利用脊回归基于支持特征重构查询图像的特征映射,具有封闭解,计算效率高。FRN试图保留空间细节,但不能很好地重建局部特征,因此没有充分考虑图像的语义信息。
相比之下,在本文提出的LCCRN中,我们设计了一种新的交叉重构模块,可以充分整合基础和局部内容丰富的特征表示,以增强对网络的语义理解。

方法

在本节中,我们将介绍新的本地内容富集交叉重构网络(LCCRN),并介绍III-C节中的本地内容提取模块和III-D节中的交叉重构模块的技术细节。

问题定义

在few-shot分类中,给定数据集D,我们将其划分为基本数据集Db及其类集Lb,验证数据集Dv及其类集Lv和新数据集Dn及其类集Ln。注意三个类集Lb, Lv和Ln是互斥的。few-shot分类的目标是训练基于Db和Lb的模型,使模型能够很好地泛化从Dn采样的任务,这是具有挑战性的,因为每个任务只有很少的标记样本可用。Dv和Lv用于在迭代训练过程中验证当前模型的准确性,以确定其是否是性能最好的模型。
本文采用经典的N-way K-shot分类设置。也就是说,在每个任务中,少数标记数据组成支持集S,该支持集包含N个类,每个类有K个支持图像。然后在一个单独的查询集Q上对模型进行评估,在S中有相同的N个类,每个类有Q个查询图像。模型的试验性能取在从Dn采样的多个任务上查询集LCCRN的框架的准确性的平均值。

LCCRN的框架

在图2中,我们描绘了LCCRN的框架。支持集S和查询集Q都被馈送到两个不同的嵌入模块,fφ和fψ,它们不共享参数。由此得到两组基本特征:从fφ得到Ps和Pq;从fψ得到Bs和Bq。我们采用下标s和q分别表示来自支持集和查询集的特征。本地内容提取模块(LCEM)以Ps和Pq为输入,生成本地内容富集(LCE)特征Zs和Zq,再与Bs和Bq一起经过交叉重构模块,得到四组交叉重构的查询特征。
这些交叉重构查询特征与其对应的真地查询特征之间的度量距离作为重构误差计算。采用这四种重构误差的加权和作为查询图像分类的度量分数。

本地内容提取模块

局部内容提取模块(LCEM)旨在将基本表示Ps和Pq转换为更能反映支持和查询图像的判别性局部信息的表示,以辅助分类。
设S中第i张图像的基表示为Ps(i),其中H和W分别表示特征映射的高度和权重,C表示通道数。LCEM通过以下两个步骤实现。首先,我们将Ps(i)的每个通道中每个位置周围的邻域窗口汇集在一起,生成表示Rs(i),以进一步探索局部结构。更具体地说,对于Ps(i)(h, w, c) 的每个值,取其大小为U × V,中心为Ps(i)(h, w, C)的邻域窗口,通过其Frobenius范数对窗口进行归一化,并将所有局部窗口聚合形成Rs(i)。采用零填充来处理特征图边缘的位置。
然后,为了学习局部内容丰富(LCE)特征,我们提出了一种新颖的卷积模块,通过卷积U × V维从Rs(i)中提取局部特征。
通过这个模块,我们还希望得到与Bq(i)的维度相匹配的特征表示,以便于交叉重建步骤。图3(左)展示了我们为卷积-4主干设计的模块,其中包括两个3 × 3卷积层,用于批量归一化和在卷积之间插入ReLU的转换。
与conv4骨干网相比,ResNet-12骨干网获得的特征映射具有更多的通道。为了提高计算效率,图3(右)所示的ResNet-12骨干网的局部内容提取模块具有两个额外的点卷积层,用于减少信道大小。请注意,使用两个额外的点卷积层来减少通道大小以实现高效计算的策略可以直接推广到具有大量通道的其他网络。
因此,S中第i幅图像的最终LCE特征可以用以下一般公式计算:
在这里插入图片描述

特征交叉重构模块

为了充分利用LCEM提取的局部特征,我们设计了一种新的特征交叉重建模块(CRM)。查询特征映射Bq和Zq都是基于Bs和Zs进行交叉重构,形成Bq使用Bs、Bq使用Zs、Zq使用Bs、Zq使用Zs四个重构任务,如图2所示。对于所有重建任务,我们都遵循Wertheimer等人的脊回归策略。
为了适应岭回归的设置,查询图像和支持图像的特征表示必须分别汇集到两个矩阵中。为了提高本节的可读性,我们滥用表示法,用Q∈RM×C表示查询图像的矩阵,用Sn∈R KM×C表示第n类支持样本的矩阵,其中M = H ×W。由于具有基本特征和LCE特征的图像的重建计算是相同的,因此我们在这里给出了一个通过Sn重建Q的一般示例。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值