图文检索(4):Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval

Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval


发布时间(2024 AAAI)


标题:

使用单模态PLM提供软标签
跨模态对齐==》如何克服假阴性false negatives??
解释:一个图像对应一个文本label,但是其实还有别的文本也可以描述该图像,这样的文本称为false negative;并且证明了单纯强调跨模态效果也不好
(针对的数据集就是MSCOCO,之前也有人开始注意到这个问题)
单模态对齐==》如何增强单模态样本的相似度识别??
解释:前面提到的问题是模态间存在问题。模态内存在的问题是现有的ITR一般只建模模态间的关系,而不关注模态内的关系。也就是关注image-text关系,忽略了text-text和image-image(之前也有人在做)

摘要

当前的图文检索方法近年来表现出了令人瞩目的性能。然而,它们仍然面临两个问题:模态间匹配缺失问题和模态内语义丢失问题。这些问题会严重影响图文检索的准确性。为了解决这些挑战,我们提出了一种称为跨模态和单模态软标签对齐(CUSA)的新方法。我们的方法利用单模态预训练模型的强大功能为图文检索模型提供软标签监督信号。此外,我们引入了两种对齐技术,即跨模态软标签对齐(CSA)和单模态软标签对齐(USA),以克服假阴性并增强单模态样本之间的相似性识别。我们的方法设计为即插即用,这意味着它可以轻松应用于现有的图文检索模型,而无需更改其原始架构。通过在各种图像文本检索模型和数据集上进行大量实验,我们证明了我们的方法可以持续提高图像文本检索的性能并取得新的最佳结果。此外,我们的方法还可以提高图像文本检索模型的单模态检索性能,使其能够实现通用检索。代码和补充文件可以在 https://github.com/lerogo/aaai24 itr cusa 找到。

引言

为了解决上述两个挑战,我们提出了一个新颖而全面的图像文本检索框架,称为跨模态和单模态软标签对齐(CUSA)。如图 1 所示,我们的方法利用单模态预训练模型为 ITR 模型提供软标签监督信号。与硬标签相比,软标签可以跨模态和模态内捕获更细粒度和细微的语义信息。我们的方法使用两种对齐技术,跨模态软标签对齐(CSA)和单模态软标签对齐(USA)。 CSA 方法作为正则化项,通过软标签指导 ITR 模型的跨模态对齐。通过这种方法,模型不仅可以从二进制标签中学习,还可以从反映图像和文本之间语义相关性的连续标签中学习。USA 方法使用软标签来指导 ITR 模型的单模态对齐。因此,该模型可以更好地识别每个模态内的相似样本并区分不同的样本。我们的方法是即插即用的,可以轻松应用于现有的 ITR 模型,而无需更改其原始架构。我们对各种 ITR 模型和数据集进行了广泛的实验,并证明我们的方法可以持续提高图像文本检索的性能并取得新的最佳结果。此外,我们的方法还可以提高 ITR 模型的单模检索性能,使其能够实现通用检索。我们的主要贡献总结如下:

  • 我们通过数学证明,单纯强调跨模态对齐会阻碍 ITR 模型识别相似输入样本的能力,从而削弱图文检索的性能。
  • 我们引入了两种对齐技术,CSA 和 USA,它们使用软标签作为监督信号来指导 ITR 模型的跨模态和单模态对齐。
  • 我们对各种 ITR 模型和数据集进行了广泛的实验,并表明我们的方法可以持续提高图文检索的性能并取得新的最佳结果。

方法

前提

1)对比损失 InfoNCE
2)原始的ITR模型的损失:(I2T的交叉熵 + T2I的交叉熵) / 2
在这里插入图片描述

特征提取

图像:Unicom-ViT-B/32
文本:MPNet / all-mpnet-basev2

我们引入了两个单模态预训练模型作为教师模型,用于计算软标签以指导 ITR 模型。 在这项工作中,我们选择 Unicom (An et al 2023) 作为图像的教师模型,选择 Sentence-BERT (Reimers and Gurevych 2019) 作为文本的教师模型。Unicom 是目前最先进的图像检索模型,而 Sentence-BERT 是一个著名的模型,在语义文本相似性 (STS) 任务中表现优异。 在训练期间,我们使用 Unicom-ViT-B/32 1 从数据集中的所有图像中提取图像特征,并使用由 Sentence-BERT 的作者微调的 MPNet (Song et al 2020) 从所有可用文本中提取文本特征,即 all-mpnet-basev2 2 。图像和文本特征的提取可以离线完成,因此在线训练期间不会增加 ITR 模型的复杂性。值得注意的是,图像和文本的教师模型的选择可以灵活,可以用任何可用的模型替换。

跨模态的软标签对齐

使用 KL 散度引导跨模态训练
1)对于图像检索文本,目标分布是一个batch 内其他图像与图像 i 的相似度,而实际分布是其他图像与文本 label 的相似度,而文本同理
实践中,同一批次中未配对的图像和文本之间可能存在潜在的语义关联,但数据集中没有标记。我们把这种情况称为“跨模态匹配缺失问题”,这导致语义匹配的图像和文本在训练过程中被错误地推开。为了解决这个问题,我们提出了跨模态软标签对齐 (CSA) 方法(图 2)。具体而言,我们基于从教师模型获得的特征计算 ^Ii 和 ^Ij 之间的余弦相似度,并将其表示为 r i2i ij 。然后对 ^Ii 和 ^Ij 之间的相似度进行批次内归一化以获得 P i2i ij ,即从教师网络来看这两幅图像在语义上一致的概率估计:

在这里插入图片描述

单模态的软标签对齐

对于相似样本的识别能力不够好:因为训练的时候只关注跨模态关系,而忽视了模态内部关系。具体如图所示。
使用 KL 散度引导跨模态训练
1)对于图像内部,目标分布是一个batch 内其他图像与图像 i 的相似度(教师模型的软标签),而实际分布是其他图像与图像 i 的相似度(ITR 模型 encoder 接 FC),而文本同理
尽管ITR中有很多工作取得了不错的效果,但是却忽略了单峰对齐,在本文中我们把这种情况称为“模态内语义损失问题”,它可能会影响模型在未见过数据上的泛化性能。如图3所示,我们考虑这样的场景:图文对‹和fi是训练集中的样本,而对›是训练时未见过的样本。对于ITR中的大部分模型来说,很可能会遇到图3(a)所示的情况:每一对中的图像和文本都可以很好地对齐,但是由于没有引入单峰对齐,两对可能会映射到超球面上的不同区域。假设完成训练的编码器是L-Lipschitz连续的,也就是说它将样本级别足够接近的元素映射到超球面上的附近位置。考虑编码器推广到样本›的情况:图像›在像素级别更接近图像fi,因此映射到其邻近度,文本›在文字级别更接近文本fi,因此也映射到其邻近度。因此,图像›很难依靠超球面的特定距离函数被文本›召回,反之亦然。另外,我们从数学上证明了ITR中仅关注跨模态对齐的模型在单模态能力方面存在不足,正是因为模型对相似输入样本的识别能力不够好,从而限制了跨模态检索的泛化性能。

在这里插入图片描述

训练目标

我们利用上述两个损失 CSA 和 USA 结合起来调整 ITR 模型的原始损失,因此整体的损失函数表示为:
在这里插入图片描述

结论

本文提出了一种新的图文检索方法,即跨模态和单模态软标签对齐。我们的方法利用单模态预训练模型为 ITR 模型提供软标签监督信号,并使用 CSA 和 USA 两种对齐技术来克服假阴性并增强单模态样本之间的相似性识别。我们的方法是即插即用的,可以轻松应用于现有的 ITR 模型,而无需改变其原始架构。我们在各种 ITR 模型和数据集上进行了广泛的实验,并证明我们的方法可以持续提高图文检索的性能并取得新的最佳结果。此外,我们的方法还可以提高 ITR 模型的单模态检索性能,使其实现通用检索。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值