Three-Branch and Mutil-scale learning for fine-grained Image Recognition(TBMSL-NET)

最新推荐文章于 2024-01-27 12:00:25 发布

林间影子

最新推荐文章于 2024-01-27 12:00:25 发布

阅读量1.4k

点赞数

分类专栏：细粒度识别文章标签：计算机视觉

本文链接：https://blog.csdn.net/xuyingfashi/article/details/105663106

版权

细粒度识别专栏收录该内容

11 篇文章 1 订阅

订阅专栏

摘要

FGVC任务的特点是：类间差异小，类内差异大。我们的方法能够有效的定位到物体和标识区域，使用的是attention object location module(AOLM) 和attention part proposal module(APPM)，而不是标注信息。模型能够获得的object image，它有整个object的结构以及更多的细节；同时，获得的part image有着不同的尺寸和更多的细粒度特征，再加上包含了完整的object的原始图像。这三类图片可以通过三分支网络进行监督训练。模型面对object有不同的scale情况下，也有着很好的泛化能力和识别能力。

引言

FGVC的主要任务是做一个更加细粒度的分类。深度学习让细粒度分类的精度相当高了，它们主要分为两种：1).端到端的方式； 2). 通过局部定位的分类子网络。第一种方法是直接学习一个更加细粒度的模型，比较经典的是双线性模型，但是双线性模型的维度太高，很难泛化使用。第二种方法，分为两个部分，localization subnet 定位标识区域，抽取关键区域的特征，classification subnet 利用标识区域的特征，进行分类。有些方法定位阶段需要除了图片类别之外，位置标注信息，但标注信息是很昂贵的。不过现在大部分方法，使用的是弱监督的方式。
在这里插入图片描述三个分支分别是：红色的，raw branch；橘黄色是 object branch；蓝色是Part branch。绿框内是测试阶段使用的部分。损失使用的都是交叉熵损失。在测试阶段有三个分支，raw branch主要学习 object 的整体结构； AOLM 获得 object 边框信息；object branch的输入是 raw branch 分支的feature map，object image的尺寸越大包含的细粒度信息也就越丰富，APPM 使用 object feature map，找到冗余最小，辨别度最大的区域位置，作为Part branch的输入；Part branch 从object image 中裁剪出part，并且学些这些不同区域、不同尺度、不同部分的特征。这三个部分的CNN和FCN是shared。因此这个方法实际上简单很多。经过多次实验，分类最好的最好的输出是AOLM获得object image，我们的方法只需要让模型获得object image，这既可以减少计算，也能增加精度。

贡献：

我们的方法是端到端的，并且能够找到标识区域。
ALOM机制并没有增加网络参数。
APPM方法不需要额外的part标注，能够找到有序的标识区域，让模型能够学习到不同尺度的目标和part部分的细粒度特征。

方法

AOLM：这个方法是SCDA的改进。首先，生成object位置坐标是通过处理CNN的feature map。F(H,W,K)表示通道为K、大小为H*W的feature map。
在这里插入图片描述
A是通过对F进行【聚集，根据公式我猜可能是求和】。a是A的均值，也是一个阈值，决定每个位置上的元素是否是part的一部分。假设(x,y)就是H×W上面的一个位置，那么mask map 是这样获得的：

于是我们就这样，可以从ResNet-50上获得一个大致的mask map。我们发现物体区域通常是最大的联通区域【这个联通区域可能是值为1的区域】。因此使用这个办法获得最小的边框块。只有使用预训练过的VGG16实验SCDA，才能获得一个很不错的效果，而ResNet-50的效果就显著下降。SCDA的方法得益于多层的集成。它改进的方式是Conv_5b和Conv_5c同时产生一个mask map，然后求出交叉点的map M。M被resize输入图片X的大小，然后覆盖在输入图片X上。我们的方法比ACOL和ADL优秀，并且不需要额外的训练参数。

APPM：通过观察activation map A，我们发现map中激活值越大的地方，越是标识区域，比如图中的鸟头。
在这里插入图片描述
使用目标检测中滑窗的想法寻找part information。我们将图片直接输入到全卷积网络中，减少计算量。每个对应的窗口都会产生一个feature map，在对应的feature map上计算各个通道之和，获得activative map A，求出a_w【A的再次均值】：
在这里插入图片描述
然后对所有窗口的a_w进行一个sort，选择比较大的那几个，认为最大的那一个窗口，就是part region:

但我们又不能直接选择那些最大的几个，因为它们往往都在一起，靠的很近，所以我们使用非最大值抑制，选择出几个比较大但是又不相邻的区域。

TBMSL-Net：为了更好的学习那些从AOLM和APPM上的学习得来的图像，raw image、object、part这三个分支共享一个CNN和全连接层。损失还是那些损失没有什么特别令人眼前一亮的变化：
在这里插入图片描述
这个模型有很好的object scale 的适应能力，解决了AOLM定位不准确问题。

林间影子

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Three-Branch and Mutil-scale learning for fine-grained Image Recognition(TBMSL-NET)

摘要FGVC任务的特点是：类间差异小，类内差异大。我们的方法能够有效的定位到物体和标识区域，使用的是attention object location module(AOLM) 和attention part proposal module(APPM)，而不是标注信息。模型能够获得的object image，它有整个object的结构以及更多的细节；同时，获得的part image有着不同的尺...
复制链接

扫一扫

专栏目录