Three-Branch and Mutil-scale learning for fine-grained Image Recognition(TBMSL-NET)

摘要

FGVC任务的特点是:类间差异小,类内差异大。我们的方法能够有效的定位到物体和标识区域,使用的是attention object location module(AOLM) 和attention part proposal module(APPM),而不是标注信息。模型能够获得的object image, 它有整个object的结构以及更多的细节;同时,获得的part image有着不同的尺寸和更多的细粒度特征,再加上包含了完整的object的原始图像。这三类图片可以通过三分支网络进行监督训练。模型面对object有不同的scale情况下,也有着很好的泛化能力和识别能力。

引言

FGVC的主要任务是做一个更加细粒度的分类。深度学习让细粒度分类的精度相当高了,它们主要分为两种:1).端到端的方式; 2). 通过局部定位的分类子网络。第一种方法是直接学习一个更加细粒度的模型,比较经典的是双线性模型,但是双线性模型的维度太高,很难泛化使用。第二种方法,分为两个部分,localization subnet 定位标识区域,抽取关键区域的特征,classification subnet 利用标识区域的特征,进行分类。有些方法定位阶段需要除了图片类别之外,位置标注信息,但标注信息是很昂贵的。不过现在大部分方法,使用的是弱监督的方式。
在这里插入图片描述三个分支分别是:红色的,raw branch;橘黄色是 object branch;蓝色是Part branch。绿框内是测试阶段使用的部分。损失使用的都是 交叉熵损失。在测试阶段有三个分支,raw branch主要学习 object 的整体结构; AOLM 获得 object 边框信息;object branch的输入是 raw branch 分支的feature map,object image的尺寸越大包含的细粒度信息也就越丰富,APPM 使用 object feature map,找到冗余最小,辨别度最大的区域位置,作为Part branch的输入;Part branch 从object image 中裁剪出part,并且学些这些不同区域、不同尺度、不同部分的特征。这三个部分的CNN和FCN是shared。因此这个方法实际上简单很多。经过多次实验,分类最好的最好的输出是AOLM获得object image,我们的方法只需要让模型获得object image,这既可以减少计算,也能增加精度。

贡献:

  1. 我们的方法是端到端的,并且能够找到标识区域。
  2. ALOM机制并没有增加网络参数。
  3. APPM方法不需要额外的part标注,能够找到有序的标识区域,让模型能够学习到不同尺度的目标和part部分的细粒度特征。

方法

AOLM:这个方法是SCDA的改进。首先,生成object位置坐标是通过处理CNN的feature map。F(H,W,K)表示通道为K、大小为H*W的feature map。
在这里插入图片描述
A是通过对F进行【聚集,根据公式我猜可能是求和】。a是A的均值,也是一个阈值,决定每个位置上的元素是否是part的一部分。假设(x,y)就是H×W上面的一个位置,那么mask map 是这样获得的:
在这里插入图片描述
于是我们就这样,可以从ResNet-50上获得一个大致的mask map。我们发现物体区域通常是最大的联通区域【这个联通区域可能是值为1的区域】。因此使用这个办法获得最小的边框块。只有使用预训练过的VGG16实验SCDA,才能获得一个很不错的效果,而ResNet-50的效果就显著下降。SCDA的方法得益于多层的集成。它改进的方式是Conv_5b和Conv_5c同时产生一个mask map,然后求出交叉点的map M。M被resize输入图片X的大小,然后覆盖在输入图片X上。我们的方法比ACOL和ADL优秀,并且不需要额外的训练参数。

APPM:通过观察activation map A,我们发现map中激活值越大的地方,越是标识区域,比如图中的鸟头。
在这里插入图片描述
使用目标检测中滑窗的想法寻找part information。我们将图片直接输入到全卷积网络中,减少计算量。每个对应的窗口都会产生一个feature map,在对应的feature map上计算各个通道之和,获得activative map A,求出a_w【A的再次均值】:
在这里插入图片描述
然后对所有窗口的a_w进行一个sort,选择比较大的那几个,认为最大的那一个窗口,就是part region:
在这里插入图片描述
但我们又不能直接选择那些最大的几个,因为它们往往都在一起,靠的很近,所以我们使用非最大值抑制,选择出几个比较大但是又不相邻的区域。

TBMSL-Net:为了更好的学习那些从AOLM和APPM上的学习得来的图像,raw image、object、part这三个分支共享一个CNN和全连接层。损失还是那些损失没有什么特别令人眼前一亮的变化:
在这里插入图片描述
这个模型有很好的object scale 的适应能力,解决了AOLM定位不准确问题。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值