图文检索（1）：Rethinking Benchmarks for Cross-modal Image-text Retrieval

简简单单的貔貅

已于 2024-09-30 21:32:13 修改

阅读量1.9k

点赞数 16

分类专栏：图文检索文章标签：深度学习计算机视觉

于 2024-09-13 17:34:13 首次发布

本文链接：https://blog.csdn.net/zhuzaiyebol/article/details/141721220

版权

发布时间（2023 sigir）

标题：重新思考跨模态图像文本检索的基准

摘要

图像文本检索作为信息检索的一个基础和重要分支，引起了广泛的研究关注。该任务的主要挑战是跨模态语义理解和匹配。最近的一些工作更多地关注细粒度的跨模态语义匹配。随着大规模多模态预训练模型的普及，一些最先进的模型（例如X-VLM）在广泛使用的图像文本检索基准测试（即MSCOCO-Test-5K和Flickr30K-Test-1K）上取得了近乎完美的性能。在本文中，我们回顾了这两个常见的基准测试，并发现它们不足以评估模型在细粒度跨模态语义匹配方面的真实能力。原因是基准测试中的大量图像和文本都是粗粒度的。基于观察，我们对旧基准中的粗粒度图像和文本进行了改造，建立了改进的基准 MSCOCO-FG 和 Flickr30K-FG。具体而言，在图像方面，我们通过采用更多相似的图像来扩大原始图像池。在文本方面，我们提出了一种新颖的半自动改造方法，几乎不需要人工干预即可将粗粒度句子细化为细粒度句子。此外，我们在新基准上评估了具有代表性的图像文本检索模型，以证明我们方法的有效性。我们还通过大量实验分析了模型在细粒度语义理解方面的能力。结果表明，即使是最先进的模型在细粒度语义理解方面也有很大改进空间，特别是在区分图像中近距离物体的属性方面。我们的代码和改进的基准数据集都是公开的1，我们希望它们能够激发对跨模态检索的进一步深入研究。

1 引言

1、重心在细粒度
2、预训练模型性能已经接近完美
3、两种实验设置用于T2I检索（文本到图像的检索）
a）original setting
MSCOCO-Test-5K中随机选择100 image-text pairs
b）similar setting
MSCOCO-Test-5K+辅助源 ==》挑99张与 a）image相似的

4）现在数据集的两个问题
a）image coarse-grained：给的检索库太小，没有与positive接近的图片，所以检索很简单
b）text coarse-grained：一个text可以有多个positive的image和它对应

5）针对这两个问题
a）辅助源+原始池 ==》与目标图像相似的图片，组成新的图片池
b）半自动细化文本：vision-language 预训练模型检测出 coarse-grained text，然后通过prompt 来丰富它，最后手动纠正这些文本

图文检索作为跨模态研究的基本课题之一，在搜索引擎、推荐系统、问答系统等现实场景中有着广泛的应用。它要求机器根据文本查询检索图像或根据图像查询找到匹配的描述。图文检索的关键挑战是学习不同模态之间的语义对应关系。为了实现更好的跨模态检索，当前主流的图文检索工作倾向于更侧重于细粒度的跨模态语义理解，其中采用了各种精心设计的对齐和推理模块，包括注意机制[18, 24, 39–41]、基于图的网络[4, 20, 25]和场景图[36, 38]等。

近年来，大规模多模态预训练模型 [2, 32, 44] 的引入为图文检索带来了显著的性能提升。人们付出了巨大的努力来为一些现有的预训练模型设计预训练任务，以刺激细粒度的语义理解，从而使图文检索的性能接近完美。一些最先进的模型，如 X-VLM [44]，已经在常用基准 MSCOCO-Test-5K 上实现了 R@10 上图像到文本 (I2T) 检索和文本到图像 (T2I) 检索的 98.2 和 90.5。

当前模型近乎完美的表现令人兴奋，但也引起了我们的好奇心，即这些模型是否真的具有可与人类媲美的跨模态语义知识，尤其是在细粒度语义理解方面？或者现有的基准不足以验证跨模态细粒度语义理解的真实模型能力？因此，我们执行了一个小型文本到图像 (T2I) 检索实验来检验我们的假设。具体来说，我们创建了两种类型的测试设置。首先，我们从 MSCOCO-Test-5K 中随机选择 100 个图像-文本对作为我们的迷你测试（原始）设置。然后，对于迷你测试（原始）中的给定文本查询，我们特意从 MSCOCO-Test-5K 和辅助源中选择 99 张与其对应目标图像相似的图像（参见第 3.1 节），这些图像与目标图像一起用作 T2I 检索的更具挑战性的候选集，这被称为我们的迷你测试（类似）设置。图 1 显示了这两个小实验设置 2 下 X-VLM 的性能，从小测试（原始）到小测试（类似）可以观察到显著的性能下降。这些观察结果启发我们重新审视当前的基准，并发现了两个问题。

首先，用于基准测试的图像是“粗粒度”的，这指的是图像检索池的规模很小，池中的图像差异很大（或池在语义上很稀疏），导致不需要细粒度的语义理解就能轻松区分检索目标。两个常见的图文检索基准测试 MSCOCO-Test-5K [23] 和 Flickr30K-Test-1K [42] 分别只包含 5000 张和 1000 张图像。而且这些图像是从 Flickr30K 和 MSCOCO 中随机选择的。规模有限和语义稀疏的检索候选池会导致图文检索评估的系统性弱点。如图 2(a) 所示，对于给定的查询“一个戴着眼镜和围巾的女人在人行道上滑滑板”，检索池包含各种各样的图像，其中大多数图像在语义上与查询不同。在这种情况下，模型可以很容易地从候选图像池中挑选出目标图像，而无需细粒度的语义理解。但是，如果我们要求模型从相似的候选图像中进行检索，那么如果没有良好的细粒度语义理解能力，模型可能会失败，如图 2(b) 所示。

第二，用于基准测试的文本“粗粒度”。基准测试中大量的文本描述不够详细。在MSCOCO和Flickr30K中，每张图片都有五句话的人工注释，有些是较细粒度的（例如“一只长颈鹿站在绿色的田野中，背景是一所房子”），有些是粗粒度的（例如“一只长颈鹿站在田野中”）。然而，粗粒度的文本可能会给图文检索评估带来问题，因为不同的图片查询可能会很好地匹配相同的粗粒度文本，如图2（c）所示。这样的评估案例并不是验证模型能力的有效测试样本。但是，如果文本变得更细，它可以成为验证模型细粒度语义理解能力的一个很好的样本，如图2（d）所示。

针对当前基准测试集的上述不足，我们建议对现有基准测试集进行改造，并构建相应的新基准测试集，即 MSCOCO-FG 和 Flickr30KFG。我们首先采用相似图像来扩大原始候选池，以获得更大、语义更密集的池。具体而言，我们利用多模态模型从原始池和辅助源中搜索与目标图像相似的图像，然后组合包括目标图像在内的所有相似图像以形成新的图像池。此外，我们提出了一种新颖的半自动化方法来细化粗粒度文本。具体而言，利用视觉语言预训练模型首先检测潜在的粗粒度文本，然后通过提示新的细节来丰富这些文本。最后，对细化的文本进行一些手动修正。

我们进一步进行了广泛的实验，在我们的新基准上测试各种现有模型。实验结果表明，在旧基准中取得接近完美性能的模型在新基准中不再表现完美，表明当前的图文检索模型在跨模态细粒度语义理解方面仍有很大的改进空间。这项工作的主要贡献包括:

我们回顾了当前的图像-文本检索基准，发现它们不足以评估模型的细粒度语义理解能力。

通过利用相似图像来扩展图像池和半自动地改进粗粒度文本，我们革新了旧的基准并构建了新的用于图像-文本检索的细粒度基准MSCOCO-FG和Flickr30K-FG。将发布新的基准来支持更深入的研究。

我们在我们的新基准上评估了几个有代表性的图像-文本检索模型，以证明我们方法的有效性，并进一步分析它们在理解跨模态细粒度语义方面的能力。

2 相关工作

2.1 Image-Text retrieval

近年来，人们提出了多种图像文本检索方法，大致可分为两类
非预训练模型
早期的作品[7,8,28]，如VSE++[7]，主要使用卷积神经网络(CNN)提取固定的网格特征来表示图像，仅提供局部像素级信息，难以理解高级语义概念。为了解决这一问题，以下工作[18,24,39,41]采用了目标检测器来更好地对图像进行编码。例如SCAN[18]采用Faster R-CNN[34]来检测图像中的物体，并将其与句子中的单词对齐。最近，研究人员探索了多种方法[4,20,30,31,36,38,40,45]来实现图像和文本之间的细粒度语义对齐。特别是，VSRN[20]利用图卷积网络(GCN)[16]和门控循环单元(GRU)[1]来执行局部全局语义推理。SGM[38]构建外部场景图[14]来增强视觉关系的学习。DIME[31]被提出用于动态学习模态交互模式。

视觉-文本预训练模型
视觉语言预训练(VLP)旨在通过自监督任务从大量的图像-文本对中学习视觉语言对齐。在对下游图像文本检索任务进行微调后，VLP模型的性能明显优于非预训练模型。它们的体系结构大致可以分为两种类型:单流和双流。单流结构模型[2,9,15,19,22,46]使用相同的编码器对图像和文本进行编码，该编码器通过不同的预训练任务学习视觉语言对齐。例如，UNITER[2]使用统一的Transformer编码器来学习在公共空间中图像区域和单词的上下文化嵌入。双流结构模型[6,13,21,26,32,43,44]首先用独立的编码器分别对图像和文本进行编码，并通过共同关注层进行跨模态语义交互，从而提供更灵活的图像和文本编码。具体来说，CLIP[32]采用了使用ResNet-50 [10]/V

最低0.47元/天解锁文章