本文主要汇总了几篇跨模态检索2023年最新顶会论文。
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training
https://arxiv.org/abs/2306.08789
利用一致的多模态对比训练进行高效的标记引导的图像-文本检索
Code is publicly available: https://github.com/LCFractal/TGDT
图像-文本检索是理解视觉和语言之间语义关系的一个核心问题,也是各种视觉和语言任务的基础。以前的大多数工作要么只是简单地学习整体图像和文本的粗粒度表征,要么就是精心建立图像区域或像素与文本词汇之间的对应关系。然而,每种模态的粗粒度表征和细粒度表征之间的密切关系对图像-文本检索非常重要,但几乎被忽视了。因此,以前的这些工作不可避免地存在检索精度低或计算成本高的问题。在这项工作中,我们通过将粗粒度和细粒度的表征学习结合到一个统一的框架中,从一个新的角度来解决图像-文本检索的问题。这个框架与人类的认知是一致的,因为人类同时关注整个样本和区域元素以了解语义内容。为此,我们提出了一个由两个同质分支组成的、分别用于图像和文本模态的Token-Guided Dual Transformer(TGDT)架构,用于图像-文本检索。TGDT将粗粒度和细粒度的检索纳入一个统一的框架,并有益地利用了两种检索方法的优势。相应地提出了一个新的训练目标,即一致的多模态对比性(CMC)损失,以确保图像和文本在共同嵌入空间中的模态内和模态间的语义一致性。在全局和局部跨模态混合相似性的基础上,所提出的方法实现了最先进的检索性能,与最近的代表性方法相比,推理时间极短。
Retrieval-Enhanced Contrastive Vision-Text Models
https://arxiv.org/abs/2306.07196
检索增强的对比视觉-文本模型
对比性的图像-文本模型,如CLIP,构成了许多最先进的系统的组成部分。虽然他们擅长识别常见的通用概念,但他们仍然在细粒度的实体上挣扎,这些实体很罕见,甚至在预训练的数据集中没有。因此,它们成功的一个关键因素是使用大规模策划的预训练数据,旨在扩大它们在预训练阶段可以记忆的概念集。在这项工作中,我们探索了一种将细粒度知识直接编码到模型参数中的替代方法:我们转而训练模型从外部存储器中检索这些知识。具体来说,我们建议让现有的视觉-文本模型有能力在推理时用从存储器中检索的跨模态信息来完善它们的嵌入,这大大改善了它们的zero-shot预测。值得注意的是,我们表明,这可以通过一个轻量级的、单层的、冻结的CLIP之上的融合变压器来完成。我们的实验验证了我们的检索增强对比性(RECO)训练在几个具有挑战性的细粒度任务上大幅提高了CLIP的性能:例如,在斯坦福Cars上+10.9,在CUB-2011上+10.2,在最近的OVEN基准上+7.3。