TransReID: Transformer-based Object Re-Identification论文笔记

Abstract

做的两件事:

  1. 提出jigsaw patch module (JPM) ,有助于更鲁棒特征表达的学习;
  2. 提出side information embeddings (SIE),通过插入可学习的嵌入来合并这些非视觉线索,从而减少对相机/视图变化的特征偏差。

是第一个使用纯transformer的工作。

Introduction

回顾CNN方法发现了两个问题。
1.在全局范围内利用这些丰富的结构模式对于ReID至关重要。但由于有效感受野的高斯分布,基于CNN的方法主要集中在小的辨别区域。
2.具有详细信息的细粒度特征也很重要。然而,CNN的下采样操作(如池化和跨步卷积)降低了输出特征图的空间分辨率,这大大影响了区分具有相似外观的对象的能力。

随着多头注意模块的引入以及卷积和下采样的去除,基于transformer的模型适合解决基于CNN的ReID中的上述问题,原因如下。
1.与CNN模型相比,多头自我注意捕捉了长距离的依赖性,并促使模型关注不同的人体部位。
2.无需下采样操作员,transformer可以保存更详细的信息。

由于直接应用于transformer,则基于CNN的侧信息的复杂设计无法充分利用变压器的固有编码能力。因此,我们提出了一个称为TransReID的新对象ReID框架来学习鲁棒的特征表示。

Related Work

VIT作为基于transformer的模型在图像分类取得很好的成绩,但是它需要大数据集进行预训练,否则效果不如CNN方法。

因此Touvronet al.提出了一个名为DeiT的框架,该框架引入了一种针对transformer的师生策略,以加快ViT培训,而无需大规模的预训练数据。

Methology

该ReID的方法是基于图像分类的transformer。但在做出了几个关键性的改进来获取鲁棒性的特征。
然后,输入到transformer层的输入序列可以表示为:
在这里插入图片描述
式中,Z0表示输入序列嵌入,P是位移嵌入。F是一种线性投影,将其中的值映射到D维。

由于原始的ViT是针对图像分类任务所设计,不能直接用于ReID任务,为此,我们对其进行了几点适应性调整。

Overlapping Patches

在预处理阶段,ViT需要将图像块拆分为N个不重叠块,这就会导致块的局部近邻结构信息无法较好的保持;因此提出滑动窗口生成重叠块。假设滑动窗口的步长为S像素,每个块的尺寸P,那么重叠部分的形状为(P - S) x P。基于上述定义,如果输入图像的尺寸为H x W,那么所得到的图像块数量如下:
在这里插入图片描述
从上式可以得出:重叠区域越大,所提图像块数量越多。而更多的块通常可以带来更好的性能,但同时也会造成更高的计算量。图像越小,分割成的面片就越多。直观地说,更多的补丁通常会带来更好的性能和更多的计算成本。

Position Embedding

由于ReID任务的图像分辨率可能与图像分类中的原始分辨率不同,因此不能在此直接加载ImageNet上预训练的位置嵌入。因此,引入双线性2D插值来帮助处理任何给定的输入分辨率。与ViT类似,位置嵌入也是可学习的。

Feature Learning

我们通过构造全局特征的ID损耗和TripltLoss来优化网络。ID损失是没有标签平滑的交叉熵损失。对于三元组集{a,p,n},具有软边距的三元组lossLT如下所示:
在这里插入图片描述

Jigsaw Patch Module

假设输入到最后一层的隐藏特征表示为在这里插入图片描述
要了解细粒度的局部特征,一个简单的解决方案是拆分在这里插入图片描述
为k组,将k个特征组送入到transformer中,以学习局部特征:
在这里插入图片描述
已有研究表明:token、主要受近邻token影响,因此近邻块的组合只能观察到有限的连续区域信息。

为解决上述问题,我们提出了Jigsaw Patch Module(JPM)对图像块先置换再分组。置换操作通过移动操作+块置换实现,可以描述如下:
Step1: The shift operation.
将前m个块移动到尾部([cls]除外)
在这里插入图片描述
在这里插入图片描述
Step2: The patch shuffle operation.
在这里插入图片描述

Side Information Embeddings

由于场景偏差,训练后的模型可能很容易无法从不同角度区分同一对象。提出SIE将非视觉信息(如相机或视点)合并到嵌入表示中,以学习不变特征。
在这里插入图片描述

词汇

mitigate vt. 使缓和,使减轻
vi. 减轻,缓和下来
plugging n. 堵塞;(用木塞)堵漏
v. 堵;塞(plug的ing形式)
misalignments n. 不重合;未对准

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值