论文分享|AAAI2024‘北航|软标签监督实现通用密集检索——图文检索中的跨模态和单模态软标签对齐

最新推荐文章于 2024-10-01 10:47:04 发布

BrownSearch

最新推荐文章于 2024-10-01 10:47:04 发布

阅读量1.3k

点赞数 30

分类专栏： NLP/IR知识分享文章标签：人工智能自然语言处理 nlp 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45783724/article/details/140486095

版权

论文题目：Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval

来源：AAAI2024/实验室师兄/北航

方向：跨模态检索

开源地址：https://github.com/lerogo/aaai24_itr_cusa

摘要

近年来，目前的图像-文本检索方法取得了惊人的性能。然而，图文检索仍然面临着两个问题：模态间匹配缺失问题和模态内语义丢失问题。这些问题会显著影响图像-文本检索的准确性。为了解决这些挑战，我们提出了一种新的方法，称为跨模态和单模态软标签对齐（CUSA）。

我们的方法利用单模态预训练模型的力量，为图像-文本检索模型提供软标签监督信号。利用这些信号，本文提出了两种对齐技术，跨模态软标签对齐（CSA）和单模态软标签对齐（USA），以减轻假负例问题，并增强单模态样本之间的相似性识别。我们的方法被设计为即插即用模块，这意味着它可以很容易地应用于现有的图像文本检索模型，而不需要改变它们的原始架构。

在各种图像-文本检索模型和数据集上的大量实验，证明我们的方法可以提高图像-文本检索的性能，并达到新的SOTA。同时，我们的方法可以提升图文检索模型的单模态检索效果，从而使其可以完成通用检索。

方法

本文的主要方法可以归纳为如下的图：

准备工作

一般的图文检索使用图搜文和文搜图两个对比学习损失作为训练目标，对于每一个batch内的N个图文对，首先得到文和图的softmax归一化相似度分布 $Q_{ij}^{i2t}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。