论文分享|AAAI2024‘北航|软标签监督实现通用密集检索——图文检索中的跨模态和单模态软标签对齐

论文题目:Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval

来源:AAAI2024/实验室师兄/北航

方向:跨模态检索

开源地址:https://github.com/lerogo/aaai24_itr_cusa

摘要

近年来,目前的图像-文本检索方法取得了惊人的性能。然而,图文检索仍然面临着两个问题:模态间匹配缺失问题和模态内语义丢失问题。这些问题会显著影响图像-文本检索的准确性。为了解决这些挑战,我们提出了一种新的方法,称为跨模态单模态软标签对齐(CUSA)。

我们的方法利用单模态预训练模型的力量,为图像-文本检索模型提供软标签监督信号。利用这些信号,本文提出了两种对齐技术,跨模态软标签对齐(CSA)和单模态软标签对齐(USA),以减轻假负例问题,并增强单模态样本之间的相似性识别。我们的方法被设计为即插即用模块,这意味着它可以很容易地应用于现有的图像文本检索模型,而不需要改变它们的原始架构。

在各种图像-文本检索模型和数据集上的大量实验,证明我们的方法可以提高图像-文本检索的性能,并达到新的SOTA。同时,我们的方法可以提升图文检索模型的单模态检索效果,从而使其可以完成通用检索

方法

本文的主要方法可以归纳为如下的图:

img

准备工作

一般的图文检索使用图搜文和文搜图两个对比学习损失作为训练目标,对于每一个batch内的N个图文对,首先得到文和图的softmax归一化相似度分布 Q i j i 2 t Q_{ij}^{i2t} Qiji2t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值