跨模态检索2023年最新顶会论文汇总

本文汇总了2023年几篇关于跨模态检索的顶级会议论文,涉及高效检索策略、知识增强、自我强化学习、知识蒸馏和轻量级模型等多个方向。这些研究旨在提升图像-文本检索的精度和效率,包括对细粒度实体的识别和全连接知识交互图的探索,以及通过关键词预筛选提高检索速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文主要汇总了几篇跨模态检索2023年最新顶会论文。

Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training

https://arxiv.org/abs/2306.08789
利用一致的多模态对比训练进行高效的标记引导的图像-文本检索
Code is publicly available: https://github.com/LCFractal/TGDT

图像-文本检索是理解视觉和语言之间语义关系的一个核心问题,也是各种视觉和语言任务的基础。以前的大多数工作要么只是简单地学习整体图像和文本的粗粒度表征,要么就是精心建立图像区域或像素与文本词汇之间的对应关系。然而,每种模态的粗粒度表征和细粒度表征之间的密切关系对图像-文本检索非常重要,但几乎被忽视了。因此,以前的这些工作不可避免地存在检索精度低或计算成本高的问题。在这项工作中,我们通过将粗粒度和细粒度的表征学习结合到一个统一的框架中,从一个新的角度来解决图像-文本检索的问题。这个框架与人类的认知是一致的,因为人类同时关注整个样本和区域元素以了解语义内容。为此,我们提出了一个由两个同质分支组成的、分别用于图像和文本模态的Token-Guided Dual Transformer(TGDT)架构,用于图像-文本检索。TGDT将粗粒度和细粒度的检索纳入一个统一的框架,并有益地利用了两种检索方法的优势。相应地提出了一个新的训练目标,即一致的多模态对比性(CMC)损失,以确保图像和文本在共同嵌入空间中的模态内和模态间的语义一致性。在全局和局部跨模态混合相似性的基础上,所提出的方法实现了最先进的检索性能,与最近的代表性方法相比,推理时间极短。

Retrieval-Enhanced Contrastive Vision-Text Models

https://arxiv.org/abs/2306.07196
检索增强的对比视觉-文本模型

对比性的图像-文本模型,如CLIP,构成了许多最先进的系统的组成部分。虽然他们擅长识别常见的通用概念,但他们仍然在细粒度的实体上挣扎,这些实体很罕见,甚至在预训练的数据集中没有。因此,它们成功的一个关键因素是使用大规模策划的预训练数据,旨在扩大它们在预训练阶段可以记忆的概念集。在这项工作中,我们探索了一种将细粒度知识直接编码到模型参数中的替代方法:我们转而训练模型从外部存储器中检索这些知识。具体来说,我们建议让现有的视觉-文本模型有能力在推理时用从存储器中检索的跨模态信息来完善它们的嵌入,这大大改善了它们的zero-shot预测。值得注意的是,我们表明,这可以通过一个轻量级的、单层的、冻结的CLIP之上的融合变压器来完成。我们的实验验证了我们的检索增强对比性(RECO)训练在几个具有挑战性的细粒度任务上大幅提高了CLIP的性能:例如,在斯坦福Cars上+10.9,在CUB-2011上+10.2,在最近的OVEN基准上+7.3。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

若年封尘

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值