TransReID: Transformer-based Object Re-Identification论文笔记

本文链接：https://blog.csdn.net/weixin_43974261/article/details/120643595

Abstract

做的两件事：

提出jigsaw patch module (JPM) ，有助于更鲁棒特征表达的学习；
提出side information embeddings (SIE)，通过插入可学习的嵌入来合并这些非视觉线索，从而减少对相机/视图变化的特征偏差。

是第一个使用纯transformer的工作。

Introduction

回顾CNN方法发现了两个问题。
1.在全局范围内利用这些丰富的结构模式对于ReID至关重要。但由于有效感受野的高斯分布，基于CNN的方法主要集中在小的辨别区域。
2.具有详细信息的细粒度特征也很重要。然而，CNN的下采样操作（如池化和跨步卷积）降低了输出特征图的空间分辨率，这大大影响了区分具有相似外观的对象的能力。

随着多头注意模块的引入以及卷积和下采样的去除，基于transformer的模型适合解决基于CNN的ReID中的上述问题，原因如下。
1.与CNN模型相比，多头自我注意捕捉了长距离的依赖性，并促使模型关注不同的人体部位。
2.无需下采样操作员，transformer可以保存更详细的信息。

由于直接应用于transformer，则基于CNN的侧信息的复杂设计无法充分利用变压器的固有编码能力。因此，我们提出了一个称为TransReID的新对象ReID框架来学习鲁棒的特征表示。

Related Work

VIT作为基于transformer的模型在图像分类取得很好的成绩，但是它需要大数据集进行预训练，否则效果不如CNN方法。

因此Touvronet al.提出了一个名为DeiT的框架，该框架引入了一种针对transformer的师生策略，以加快ViT培训，而无需大规模的预训练数据。

Methology

该ReID的方法是基于图像分类的transformer。但在做出了几个关键性的改进来获取鲁棒性的特征。
然后，输入到transformer层的输入序列可以表示为：
在这里插入图片描述
式中，Z0表示输入序列嵌入，P是位移嵌入。F是一种线性投影，将其中的值映射到D维。

由于原始的ViT是针对图像分类任务所设计，不能直接用于ReID任务，为此，我们对其进行了几点适应性调整。

Overlapping Patches

在预处理阶段，ViT需要将图像块拆分为N个不重叠块，这就会导致块的局部近邻结构信息无法较好的保持；因此提出滑动窗口生成重叠块。假设滑动窗口的步长为S像素，每个块的尺寸P，那么重叠部分的形状为(P - S) x P。基于上述定义，如果输入图像的尺寸为H x W，那么所得到的图像块数量如下：
在这里插入图片描述
从上式可以得出：重叠区域越大，所提图像块数量越多。而更多的块通常可以带来更好的性能，但同时也会造成更高的计算量。图像越小，分割成的面片就越多。直观地说，更多的补丁通常会带来更好的性能和更多的计算成本。

Position Embedding

由于ReID任务的图像分辨率可能与图像分类中的原始分辨率不同，因此不能在此直接加载ImageNet上预训练的位置嵌入。因此，引入双线性2D插值来帮助处理任何给定的输入分辨率。与ViT类似，位置嵌入也是可学习的。

Feature Learning

我们通过构造全局特征的ID损耗和TripltLoss来优化网络。ID损失是没有标签平滑的交叉熵损失。对于三元组集{a，p，n}，具有软边距的三元组lossLT如下所示：
在这里插入图片描述

Jigsaw Patch Module

假设输入到最后一层的隐藏特征表示为在这里插入图片描述
要了解细粒度的局部特征，一个简单的解决方案是拆分
为k组，将k个特征组送入到transformer中，以学习局部特征：

已有研究表明：token、主要受近邻token影响，因此近邻块的组合只能观察到有限的连续区域信息。

为解决上述问题，我们提出了Jigsaw Patch Module(JPM)对图像块先置换再分组。置换操作通过移动操作+块置换实现，可以描述如下：
Step1: The shift operation.
将前m个块移动到尾部（[cls]除外）
在这里插入图片描述
→
Step2: The patch shuffle operation.