论文分享|AAAI2024‘北航|软标签监督实现通用密集检索——图文检索中的跨模态和单模态软标签对齐

论文题目:Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval

来源:AAAI2024/实验室师兄/北航

方向:跨模态检索

开源地址:https://github.com/lerogo/aaai24_itr_cusa

摘要

近年来,目前的图像-文本检索方法取得了惊人的性能。然而,图文检索仍然面临着两个问题:模态间匹配缺失问题和模态内语义丢失问题。这些问题会显著影响图像-文本检索的准确性。为了解决这些挑战,我们提出了一种新的方法,称为跨模态单模态软标签对齐(CUSA)。

我们的方法利用单模态预训练模型的力量,为图像-文本检索模型提供软标签监督信号。利用这些信号,本文提出了两种对齐技术,跨模态软标签对齐(CSA)和单模态软标签对齐(USA),以减轻假负例问题,并增强单模态样本之间的相似性识别。我们的方法被设计为即插即用模块,这意味着它可以很容易地应用于现有的图像文本检索模型,而不需要改变它们的原始架构。

在各种图像-文本检索模型和数据集上的大量实验,证明我们的方法可以提高图像-文本检索的性能,并达到新的SOTA。同时,我们的方法可以提升图文检索模型的单模态检索效果,从而使其可以完成通用检索

方法

本文的主要方法可以归纳为如下的图:

img

准备工作

一般的图文检索使用图搜文和文搜图两个对比学习损失作为训练目标,对于每一个batch内的N个图文对,首先得到文和图的softmax归一化相似度分布 Q i j i 2 t Q_{ij}^{i2t} Qiji2t Q i j t 2 i Q_{ij}^{t2i} Qijt2i

img

img

利用这两个相似度分布与相应的0/1标签使用交叉熵(匹配为1,不匹配为0),得到文搜图和图搜文的对比学习损失,两者取平均得到一般的最终优化目标 L i t c \mathcal{L}_{itc} Litc

img

特征提取

本文使用 unicom 作为图像教师模型,mpnet 作为文本教师模型,这两个模型都是各自领域的先进模型。值得注意的是,这两个教师模型可以换成其他任意的文本表征模型/图像表征模型。

跨模态软标签对齐

首先利用两个教师模型得到每个batch内不同图像间的归一化相似度,作为目标分布

img

同理可以得到文本间的归一化相似度 P i j t 2 t P_{ij}^{t2t} Pijt2t ,之后用 P i j i 2 i P_{ij}^{i2i} Piji2i 指导图搜文相似度分布,后用 P i j t 2 t P_{ij}^{t2t} Pijt2t 指导文搜图相似度分布,使用KL散度作为优化目标

img

单模态软标签对齐

同样,我们可以使用图像间相似度和文本间相似度来作为目标,来约束图文模型的模态内相似度分布,首先得到待优化分布 $Q_{ij}^{i2i} $ 和 Q i j t 2 t Q_{ij}^{t2t} Qijt2t

img

之后类似的,使用KL散度作为优化目标对齐

img

训练目标

最终使用两个超参将三个损失组合在一起

img

实验

在MSCOCO和Flickr30K两个常见的图文检索数据集上,在各种架构的先进模型上均取得了提升

img

同时,在图像检索和文本STS任务和任务上,本文的方法也取得了一定提升,从而证明了通用检索的部分可行性

img

img

消融实验表明,CSA对于图文检索非常有效,USA则对于单模态检索非常有效,而两者叠加则可以让模型在各种检索任务上都具有更好的性能

img


大家好,我是NLP研究者BrownSearch,如果你觉得本文对你有帮助的话,不妨点赞收藏支持我的创作,您的正反馈是我持续更新的动力!如果想了解更多LLM/检索的知识,记得关注我!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值