【CVPR2022】论文阅读笔记:SINet:Salient-to-Broad Transition for Video Person Re-identification

论文介绍了一种新的视频行人重识别方法Salient-to-BroadModule(SBM),它利用时间关系扩展帧间关注区域,结合Integration-and-DistributionModule(IDM)来增强视频级特征表示。SINet模型通过层次结构整合SBM和IDM,提升性能。实验结果显示在多个数据集上表现出色。
摘要由CSDN通过智能技术生成

视频行人重识别 video-based person re-ID
CVPR2022论文
Salient-to-Broad Transition for Video Person Re-identification

论文地址:SINet
项目地址:SINet

引言

提出问题

首先,对于每一帧,这些方法的集中通常被限制在一个显著但局部的区域。
其次,时间关系的利用,即帧之间的相互增强是有限的。

本文贡献

Salient-to-Broad Module(SBM):SBM创新地利用时间关系放大帧之间的差异,即逐步扩大连续帧的注意区域。具体地说,我们希望行人的表现更加翔实有力,所以它们应该包含尽可能多的前景信息。虽然前面的框架关注的是一个突出但部分的区域,但我们要求SBM在后面的框架中关注更广泛的区域。
Integration-and-Distribution Module (IDM) 来辅助SBM,SBM通过增强帧间的差异来提高视频级特征的表示能力。但SBM的性能也取决于帧级信息的丰富度。为此,IDM将集成和分发信息性的全局特性,使消息能够跨所有帧传递。
The propagation is input-agnostic,并且是用来自输入数据的所有信息构建的。通过这样做,IDM与SBM是互惠的:IDM巩固了帧级表示,而SBM将丰富视频级表示。因此,SBM和IDM的结合将为视频再识别带来更强大的表征。

方法

Salient-to-Broad Module

在这里插入图片描述

输入:特征图和分割位置,对于特征图,SBM 采用具有语义和详细信息的中间级特征图。具体来说,给定包含t帧的视频剪辑,通过主干模型获得中间特征图,大小c×h×w,分别为通道大小、高度和宽度。
至于分割位置 split position s,它决定了前一帧和后一帧的分割,即需要抑制哪些帧。具体来说,SBM 将抑制后期帧 X s , . . . , t − 1 X_{s,...,t-1} Xs,...,t1中的显着特征,这些特征已在早期帧 X 0 , . . . , s − 1 X_{0,...,s-1} X0,...,s1中捕获。
Channel Attention Layer (CAL)
SBM 的第一个过程是 CAL,旨在过滤掉误导和无意义的通道。由于模型的零填充,一些通道可能集中在外围,倾向于选择背景作为显着特征。这可能会误导后面的抑制,因为突出的行人通常位于输入帧的中心。
Kernel Generation Module (KGM)
在 CAL 之后,我们需要提取前 P 0 , . . . , s − 1 P_{0,...,s-1} P0,...,s1的显著特征。提取的特征将用于抑制后续抑制过程中的显著特征。
Suppress Operation (SO)
在这一步中,SBM利用上述生成的核来抑制 Q s , . . . , t − 1 Q_{s,...,t-1} Qs,...,t1中在P中已被激活的显著区域,从而使后面的帧可以关注更广泛的区域,获得更完整的表示。
Cross Propagation Module (CPM)
在SO中被抑制(或删除)的显著特征对后面的帧是有害的,因为它们阻碍了对不太显著区域的挖掘。然而,对于整个视频来说,丢失的显著信息仍然是与id相关的,因此是有帮助的。因此,我们使用CPM通过将它们传递到未受抑制的帧 X 0 , . . . , s − 1 X_{0,...,s-1} X0,...,s1(即图2中的红色虚线)来保留它们。

Integration and Distribution Module (IDM)

在这里插入图片描述

我们还提出了 IDM 来辅助 SBM。SBM致力于增强视频级特征的表征能力。但是 SBM 的性能还取决于每一帧注意力区域的信息丰富度。具体来说,每一帧的这些区域信息量更大,SBM 中最终的视频级表示就越强大。

SINet

在这里插入图片描述

网络。图 4 显示了我们提出的 SINet 的概述,它是 SBM 和 IDM 的分层组合。SINet的主干是在ImageNet上预训练的ResNet-50。ResNet-50有四层,每层由几个剩余块组成。我们分别在中间残差块和最后一个残差块之后将两个 IDM 插入到第二层。将三个 SBM 均匀地插入第三层,形成层次结构来实现显着到广泛的过渡。具体来说,第一个 SBM 使用第一帧来抑制剩余的帧,而第二个(第三个)SBM 使用前两个(三个)帧来提取显着特征并执行抑制。最后,使用时间平均池生成最终的视频级嵌入,这些嵌入将用于训练或检索。
目标函数。采用CrossEntropy LossBatch Hard Triplet Loss 共同指导训练过程。此外,为了保持帧之间的多样性,利用互信息损失 L m i L_{mi} Lmi来最小化不同帧嵌入的互信息。

结果

在这里插入图片描述
可以看到在多个数据集上指标已经刷到九十多了,做绝了基本上~~~

  • 28
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值