跨模态行人重识别:Modality Synergy Complement Learning withCascaded Aggregation for Visible-InfraredPerson 笔记

目录

简述

贡献

MSCLNet

 方法

模态协同模块

模态补充模块

 级联聚合策略

子类级聚合 

 类内聚合

类间级上的聚合  

 目标函数


基于级联聚合的模态协同互补学习在可见光-红外人员识别中的应用

简述

        级联聚合的模态协同互补学习网络(MSCLNET)。 基本思想是协同两个模态来构造不同的身份鉴别语义和较少噪声的表示。 然后,在这两种模式的优点下对协同表征进行了补充。 此外,提出了级联聚合策略,用于细粒度的特征分布优化,该策略将子类、类内和类间的特征嵌入进行渐进聚合。

        传统的硬样本挖掘和特征聚合方法在实例级优化特征嵌入距离。 这种粗粒度度量学习忽略了所有实例的综合分布。 我们的目标是以级联的方式在不同的层次上进行优化。 其基本思想是根据相同的拍摄摄像机将每个身份的实例细分为若干个子类。 每个子类中的实例更容易聚合,其特征嵌入具有更高的类内相似性。 这样,我们可以逐步限制特征嵌入之间的距离。

       红外和可见光优势的演示。 红外图像包含相似的语义,其特征嵌入更容易聚合。 可见的图像包含不同的语义,即使它们描述的是同一个人。 

        模态协同互补学习网络(MSCLNET)。 它旨在减少类内差异,增强身份识别的表征。,通过构造一个与模态协同模块(MS)的协同表示,保留了可见光和红外模态固有的语义多样性和身份相关性。 然后,通过上图所显示的两种模式的具体优势,增强了协同表征 ,MC包含这两个平行的互补过程,具有可见和红外表示。 一方面,它从可见的模态中提供了细粒度和区分特征的指导。 另一方面,它从红外模式提供全球行人统计数据。 MS和MC极大地提高了网络跨模态表示身份的能力。 此外,我们提出了级联聚合策略(CA)来优化特征嵌入的分布。 它逐步地将样本聚合到子类、类内和身份间。 通过级联的方式,将属于相同身份的实例倾向于聚合,将属于不同身份的实例映射为分散。

贡献

        为了获取更有鉴别性的语义,它通过不同的语义和可见光和红外模式的特定优势来学习增强的特征表示提出了一个新的VI-Reid级联聚合的模态协同互补学习网络(MSCLNet)框架。

1、 提出了一个模态协同模块(MS)和一个模态补充模块(MC),该模块创新性地挖掘了模态特有的多样性语义,并通过两个并行的模态特有优势准则进一步增强了特征表示。 它们为进一步的高级身份表示提供了参考。

2、设计了一种级联聚合策略(CA)来优化特征嵌入在细粒度级别上的分布。 它以级联的方式逐步聚合总体实例,并增强身份的区分。

MSCLNet

        采用双流网络作为特征提取器。 首先,基于从可见光和图像中提取的特征表示FV和FR,MSCLNET通过约束两种模式之间特征分布的多样性来构造协同表示FS。 模式补充指导将进一步加强协同作用。 可见模态提供细粒度的鉴别语义,而红外模态提供稳定的全局行人统计。 然后通过级联聚合策略对同一类特征嵌入进行聚合,从三个方面逐步优化特征嵌入的综合分布。 

 方法

模态协同模块

双流网络提取它们的特征fv i和fr i特性fv i和fr i通过以下操作进行规范化。

         Var [fv i ]表示在小批处理中为每个实例分别按维度计算。设S(·)表示模态协同模块,在fv i,fr i的基础上构造带有标签YI的协同特征fs i:

        其中θs作为模态协同模块S(·)的参数。利用Mogrifier LSTM[25]作为协同特征编码器来最大限度地提高模态协同学习的效果,并将协同特征fs i与可见光和红外特征及其共享的地面真值标记编码。 为了构造具有不同语义的fs i,我们利用KL-散度来约束可见光和红外特征fv i,fr i的Logistic分布,其表述如下:

         其中n表示一批样品的数量。 θv和θr分别作为可见光和红外模态的学习特征提取器,旨在最大限度地提高模态语义表示的多样性。 首先在表示空间中设计fv和fr,以最大限度地提高身份之间的模态区分度。 然后,协同特征提取器θs投影f v ,f r 构建了一个共享的表示空间,并构造了协同特征fs i.

        在此基础上,引入交叉熵来约束可见光和红外特征PV I和PR I的逻辑概率,并引入地面真值标记YI来约束不同的语义

         其中λdiv和λt是用于平衡单个损失项贡献的参数, θv和θr的优化过程分别跟踪(fv xv,fs xv)和(fr xr,fr xr)的梯度。

模态补充模块

        考虑到细粒度语义,我们利用可见特征fv i在局部方面的优势来增强协同特征。 在考虑粗粒度语义的基础上,结合全局部分红外特征的优点,增强了协同特征。

        在细粒度层次上,我们将可见特征和协同特征分成n=6个部分,即MPANET[45],得到单独的特征块fv i=[BV1,BV2···,BV n],fs =[BS i1,BS2···,BS n]。 协同特征的局部区分可以通过可见模态的细微区域来增强。 利用余弦相似度COS(·,·)进行优化

        同时,在粗粒度层次上,通过保持协同特征的统计中心与红外特征fr i的统计中心一致来监督fs i。 协同特征的全局统计量可以通过红外模态的中心一致性得到优化。

         其中Cs yi,Cr yi表示协同特征fs i,fr i的yi类的中心。 LGlobal有助于协调协同和红外特征的语义,并过滤协同表示的身份无关性。 

在模态补码模块中,我们更新了协同特征提取器θs的参数,旨在为每个身份构造噪声更小、更多样、语义描述更精确的特征。 θs优化如下:

 级联聚合策略

在Reid问题中广泛采用中心损失[23]和三重损失[14]来同时学习特征嵌入的集中表示和挖掘硬样本。 中心损耗LC和三重损耗LTRI可表述为:

子类级聚合 

         利用每个图像的拍摄摄像机的同一性作为自然子类,因为同一摄像机拍摄的同一个人的图像彼此具有很高的相似性,其中Csi表示Sth I子类中心:

 类内聚合

        在训练过程中保持特征的结构先验。 聚合的公式可以表示如下,其中ns表示每个标识的子类的数目。

类间级上的聚合  

        本文提出的聚合方法不仅使类内实例的相似度最大化,而且使类间实例的相异度最大化。

度量学习CA的损失函数可以表示为:

 目标函数

        首先,我们利用协同损失LSynergy来丰富对不同语义的表示。 特征提取器θv和θr的参数更新为

         在此基础上,利用可见光特征中的局部识别性和红外特征中的全局身份统计性两种方法的优点,对协同特征表示进行了改进。 我们利用互补损耗LCOM来更新模态协同特征提取器θs:

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
模态融合变压器用于多光谱目标检测是一种先进的目标检测方法。多光谱图像由不同波段的传感器捕获,每个波段提供了目标的不同特征信息。传统的目标检测算法往往局限于单一光谱波段,无法在多光谱图像中有效提取目标信息。而模态融合变压器能够将不同波段的光谱信息融合,并在融合后的特征上进行目标检测,从而提高目标检测的准确性和鲁棒性。 模态融合变压器结合了Transformer模型和模态融合方法。Transformer模型是一种基于自注意力机制的神经网络架构,能够有效地建模长距离依赖关系。它将目标的特征信息转化为一系列的注意力权重,然后利用这些权重来对不同波段的特征进行加权融合。这种融合方式可以将信息从一个波段传递到另一个波段,使得各个波段的特征能够共同影响目标检测结果。 模态融合变压器还引入了多尺度的注意力机制,以适应不同尺度目标的检测需求。它通过在特征提取的过程中引入多个不同大小的注意力窗口,来对不同尺度的目标进行建模。通过这种方式,模态融合变压器能够在多光谱图像中准确地检测到各种尺度的目标。 总之,模态融合变压器是一种能够融合不同波段特征并进行多光谱目标检测的先进方法。它的引入可以提高目标检测的准确性和鲁棒性,适用于各种需要从多光谱图像中提取目标信息的应用场景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值