【CVPR2022】论文阅读笔记：SINet：Salient-to-Broad Transition for Video Person Re-identification

得逞

于 2024-03-17 22:12:55 发布

阅读量869

点赞数 28

分类专栏：行人重识别文章标签：论文阅读笔记深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_44606353/article/details/136791439

版权

行人重识别专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文介绍了一种新的视频行人重识别方法Salient-to-BroadModule(SBM)，它利用时间关系扩展帧间关注区域，结合Integration-and-DistributionModule(IDM)来增强视频级特征表示。SINet模型通过层次结构整合SBM和IDM，提升性能。实验结果显示在多个数据集上表现出色。

摘要由CSDN通过智能技术生成

视频行人重识别 video-based person re-ID
CVPR2022论文
Salient-to-Broad Transition for Video Person Re-identification

论文地址：SINet
项目地址：SINet

引言

提出问题

首先，对于每一帧，这些方法的集中通常被限制在一个显著但局部的区域。
其次，时间关系的利用，即帧之间的相互增强是有限的。

本文贡献

Salient-to-Broad Module(SBM)：SBM创新地利用时间关系放大帧之间的差异，即逐步扩大连续帧的注意区域。具体地说，我们希望行人的表现更加翔实有力，所以它们应该包含尽可能多的前景信息。虽然前面的框架关注的是一个突出但部分的区域，但我们要求SBM在后面的框架中关注更广泛的区域。
Integration-and-Distribution Module (IDM) 来辅助SBM，SBM通过增强帧间的差异来提高视频级特征的表示能力。但SBM的性能也取决于帧级信息的丰富度。为此，IDM将集成和分发信息性的全局特性，使消息能够跨所有帧传递。
The propagation is input-agnostic，并且是用来自输入数据的所有信息构建的。通过这样做，IDM与SBM是互惠的：IDM巩固了帧级表示，而SBM将丰富视频级表示。因此，SBM和IDM的结合将为视频再识别带来更强大的表征。

方法

Salient-to-Broad Module

在这里插入图片描述

输入：特征图和分割位置，对于特征图，SBM 采用具有语义和详细信息的中间级特征图。具体来说，给定包含t帧的视频剪辑，通过主干模型获得中间特征图，大小c×h×w，分别为通道大小、高度和宽度。
至于分割位置 split position s，它决定了前一帧和后一帧的分割，即需要抑制哪些帧。具体来说，SBM 将抑制后期帧 $X_{s,...,t-1}$ 中的显着特征，这些特征已在早期帧 $X_{0,...,s-1}$ 中捕获。
Channel Attention Layer (CAL)
SBM 的第一个过程是 CAL，旨在过滤掉误导和无意义的通道。由于模型的零填充，一些通道可能集中在外围，倾向于选择背景作为显着特征。这可能会误导后面的抑制，因为突出的行人通常位于输入帧的中心。
Kernel Generation Module (KGM)
在 CAL 之后，我们需要提取前 $P_{0,...,s-1}$ 的显著特征。提取的特征将用于抑制后续抑制过程中的显著特征。
Suppress Operation (SO)
在这一步中，SBM利用上述生成的核来抑制 $Q_{s,...,t-1}$ 中在P中已被激活的显著区域，从而使后面的帧可以关注更广泛的区域，获得更完整的表示。
Cross Propagation Module (CPM)
在SO中被抑制(或删除)的显著特征对后面的帧是有害的，因为它们阻碍了对不太显著区域的挖掘。然而，对于整个视频来说，丢失的显著信息仍然是与id相关的，因此是有帮助的。因此，我们使用CPM通过将它们传递到未受抑制的帧 $X_{0,...,s-1}$ （即图2中的红色虚线）来保留它们。

Integration and Distribution Module (IDM)

在这里插入图片描述

我们还提出了 IDM 来辅助 SBM。SBM致力于增强视频级特征的表征能力。但是 SBM 的性能还取决于每一帧注意力区域的信息丰富度。具体来说，每一帧的这些区域信息量更大，SBM 中最终的视频级表示就越强大。

SINet

在这里插入图片描述

网络。图 4 显示了我们提出的 SINet 的概述，它是 SBM 和 IDM 的分层组合。SINet的主干是在ImageNet上预训练的ResNet-50。ResNet-50有四层，每层由几个剩余块组成。我们分别在中间残差块和最后一个残差块之后将两个 IDM 插入到第二层。将三个 SBM 均匀地插入第三层，形成层次结构来实现显着到广泛的过渡。具体来说，第一个 SBM 使用第一帧来抑制剩余的帧，而第二个（第三个）SBM 使用前两个（三个）帧来提取显着特征并执行抑制。最后，使用时间平均池生成最终的视频级嵌入，这些嵌入将用于训练或检索。
目标函数。采用CrossEntropy Loss和Batch Hard Triplet Loss 共同指导训练过程。此外，为了保持帧之间的多样性，利用互信息损失 $L_{mi}$ 来最小化不同帧嵌入的互信息。

结果

在这里插入图片描述
可以看到在多个数据集上指标已经刷到九十多了，做绝了基本上~~~

得逞

关注

28
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
【CVPR2022】论文阅读笔记：SINet：Salient-to-Broad Transition for Video Person Re-identification

视频行人重识别 video-based person re-IDCVPR2022论文阅读笔记Salient-to-Broad Transition for Video Person Re-identification
复制链接

扫一扫

专栏目录