简简单单的貔貅-CSDN博客

原创图文检索（41）：局部对齐Step-Wise Hierarchical Alignment Network for Image-Text Matching

单步对齐逐步对齐（SHAN）翻译：除了token级别对齐，还关注上下文语义的对齐。

2025-01-12 00:26:52 668

原创图文检索（40）：局部对齐ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

这是一个转折点：CLIP（2021年初）之前的图像特征提取依赖 object detection + resnet 这样两层结构。

2025-01-07 16:59:03 390

原创图文检索（39）：局部对齐UNITER: UNiversal Image-TExt Representation Learning

四种预训练任务==》通用图像文本表示三种训练任务：Masked Language Modeling (MLM)大量实验表明，UNITER 在六个 V+L 任务（超过九个数据集）中实现了新的最佳状态，包括视觉问答、图像文本检索、指称表达理解、视觉常识推理、视觉蕴涵和 NLVR2（代码可在 https://github.com/ChenRocks/UNITER 上找到）。

2025-01-07 15:40:37 859

原创图文检索（38）：局部对齐CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval

跨模态自适应消息传递 (CAMP)1）考虑了 comprehensive 和 fine-grained 的跨模态相互作用2）使用自适应门控方案正确处理负对和不相关信息此外，与传统的文本图像匹配联合嵌入方法不同，我们根据融合特征推断匹配分数，并提出了最难的负二元交叉熵损失进行训练。

2025-01-04 21:53:03 641

原创图文检索（37）：局部对齐Stacked Cross Attention for Image-Text Matching

1）全局对齐：先前的工作要么简单地汇总所有可能的区域和单词对的相似性，而不对更重要和更不重要的单词或区域进行差异化关注2）不可解释：要么使用多步骤注意过程来捕获有限数量的语义对齐，这不太容易解释3）可解释性：在本文中，我们提出了堆叠交叉注意力来发现使用图像区域和句子中的单词作为上下文的完整潜在对齐并推断图像文本相似性。

2024-12-30 10:57:35 1251

原创图文检索（36）：Decomposing Semantic Shifts for Composed Image Retrieval

语义转换网络 (SSN)：1）降级用于从参考图像描绘视觉原型2）升级用于将视觉原型丰富为最终表示以检索所需的目标图像。

2024-12-12 20:40:12 426

原创图文检索（35）：A Prior Instruction Representation Framework for Remote Sensing Image-text Retrieval

任务：遥感图像检索问题：语义噪声问题本文：先验指令表示框架（PIR）先验知识图像和文本表示学习自适应学习两个渐进式注意力编码器：执行远程依赖建模以增强关键特征表示Spatial-PAE：视觉指令表示 (VIR) 利用遥感场景识别的先验指导知识，通过构建信念矩阵来选择关键特征以减少语义噪声的影响Temporal-PAE：语言周期注意 (LCA) 使用前一个时间步骤循环激活当前时间步骤以增强文本表示能力集群式关联损失：约束类间 + 减少公共子空间中的语义混淆区。

2024-12-04 16:06:04 574

原创图文检索（34）：Simple but Effective Raw-Data Level Multimodal Fusion for Composed Image Retrieval

1）任务：组合图像检索CIR，reference image + modification text --》target image2）最近方法：VLP 提取特征 + 非线性融合潜在问题：非线性特征级多模态融合可能会导致融合特征偏离原始嵌入空间，从而可能损害检索性能本文：将特征级别融合，变成数据级别融合1）统一的文本查询是通过将修改文本与提取的参考图像的文本描述连接起来而得出的2）统一的视觉查询是通过将关键修改词写入参考图像而创建的。

2024-12-04 09:58:32 778

原创图文检索（33）：Zero-Shot Everything Sketch-Based Image Retrieval, and in Explainable Style

零样本草图检索本文：1）一个网络解决三种类型：同类别检索，不同类别检索，跨数据集2）解释了sketch 和 image 的匹配过程：跨模态匹配可以简化为 key local patches 的比较。i.e. 类似于词袋模型的范式三个网络组件：1）自注意力模块带有可学习的 tokenizer，能够生成 visual token 对应的是最富信息量的 local region2）交叉注意模块，计算两种模态的视觉标记之间的局部对应关系。

2024-12-03 16:31:08 1185

原创图文检索（32）：Revisiting Self-Similarity: Structural Embedding for Image Retrieval

思想：之前只是关注图像的全局表示，本文加入几何结构方法：图像的视觉+结构信息引入全局表示1）特征提取模块视觉信息：原始图像特征结构信息：结构嵌入网络（SENet），捕获图像的内部结构并逐渐将它们压缩为密集的自相似性描述符，同时从各种图像中学习不同的结构2）融合模块和谐地融合视觉和结构信息，而不会破坏基础结构的原始行为。

2024-12-03 14:49:07 798

原创图文检索（31）：Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval

任务：文本识别人物挑战：文本和图像的共同潜在空间传统：各自提取特征，但是缺乏两种模态的对齐能力同时利用一些显式的方法对齐，可能造成模态内部语义信息的扭曲本文： IRRA，一个跨模态隐式关系推理和对齐框架总结：局部视觉和文本token 之间的关系，同时增强全局的文本图像匹配1）MLM 模型中设计了一个隐式的推理模块，将视觉信息集成到文本标记中，实现交互2）为了全局对齐，利用KL散度最小化文本-图像相似性分布与标准化标签匹配分布。

2024-12-02 15:42:12 679

原创图文检索（30）：FashionERN: Enhance-and-Refine Network for Composed Fashion Image Retrieval

CLIP的问题：图像丰富，但是文本简短。所以利用这种编码器，检索结果以参考图像为主，导致对修改后的文本的忽视。时尚增强和细化网络 (FashionERN)：增强文本编码器、细化视觉语义。1）引入了一个三分支修饰符增强模型，该模型从参考图像中注入相关信息，并将修改后的文本模态与目标图像模态对齐2）提出了一个双引导视觉细化模型，该模型通过文本引导细化和自引导细化过程保留关键的视觉信息。

2024-11-29 16:52:13 710

原创图文检索（29）：ViLEM: Visual-Language Error Modeling for Image-Text Retrieval

对比学习保证 text、image 的全局语义对齐，然而忽略了详细语义关联1）生成负面文本，visual-language error modeling，根据图像校对文本2）多粒度交互框架，建立多粒度的图文关联。

2024-11-24 15:24:13 552

原创图文检索（28）：Fashion Image Retrieval with Text Feedback by Additive Attention Compositional Learning

任务：图像 + 修改文本 --》目标图像本文：加性注意力的图像文本组合模块。

2024-11-22 16:56:56 396

原创图文检索（27）：Generalising Fine-Grained Sketch-Based Image Retrieval

传统：联合嵌入空间，比较 sketch 和图片细粒度需要 instance-level pairing within each coarse-grained category as annotated training data缺点：类别内部使用的嵌入空间，不能推广到不同类别本文：无监督学习进行类别泛化用于对原型视觉草图特征的通用流形进行建模。然后可以使用该流形来参数化草图/照片表示的学习。然后，通过将新草图嵌入流形并相应地更新表示和检索函数，模型对新类别的适应变得自动。

2024-11-21 20:35:33 662

原创图文检索（26）：StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval

本文创新传统：联合嵌入空间，保留两者共享语义内容本文：考虑到 sketch 不同绘制者之间风格的多样性。1）跨模态变分自动编码器（VAE）将sketch 解耦为两部分：photo 共享语义 + sketch 绘制者独有风格2）如何推广到看不见的风格？使用元学习：编码器特征转换层 + 正则化器解耦语义内容补充知识AE：普通的将输入数据压缩到一个潜在空间表示，然后再将其解码回原始数据空间VAE：除了AE的这部分。

2024-11-20 14:26:49 1122

原创图文检索（25）：Cross-Modal Hierarchical Modelling for Fine-Grained Sketch Based Image Retrieval

草图作为图像搜索查询是文本的理想替代品，可以捕捉精细的视觉细节。之前在基于草图的细粒度图像检索 (FGSBIR) 方面的成功证明了解决草图与照片相比的独特特征的重要性，例如时间与静态、笔触与像素以及抽象与像素完美。在本文中，我们研究了迄今为止被忽视的草图的另一个特征，即它们在细节级别方面是分层的——人们通常会绘制不同程度的细节来描绘一个物体。这种层次结构通常在视觉上是不同的。在本文中，我们设计了一个新颖的网络，它能够培养特定于草图的层次结构并利用它们在相应的层次级别上将草图与照片进行匹配。

2024-11-14 21:24:47 638

原创图文检索（24）：Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

传统：粗粒度的整体匹配，忽略了细节和空间特征本文：1）空间感知，注意模块注意细节2）粗粒度和细粒度融合3）高阶可学习能量函数（HOLEF），建模特征相关性并且对于两个域之间特征的错位具有鲁棒性损失：三元组损失本文的相似度度量方式：高阶距离函数与传统一致的设计：1）与 [46] 类似，CNN 基础网络是 Sketch-a-Net [47]，最初设计用于草图识别2）我们遵循相同的数据预处理步骤，从每张照片图像中提取边缘图以缩小域差距。

2024-11-07 15:50:14 479

原创图文检索（23）：CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained or Not

zero-shot如何解决细粒度匹配问题？（i）额外的正则化损失，以确保草图和照片之间的相对分离在各个类别中是均匀的，而黄金标准独立三重态损失并非如此（ii）巧妙的补丁改组技术，帮助在草图照片对之间建立实例级结构对应关系。

2024-11-06 22:49:17 996

原创图文检索（22）：A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch

本文：双流架构，后期融合可能的研究方向1）复杂文本描述的检索效果不好比如两个物体，物体分别有不同的颜色2）对于草图尺度不匹配的容忍性问题（画的草图尺度和位置可能与图像不一致）3）文本增强技术，使得查询更具体。

2024-11-06 14:56:24 792

原创图文检索（21）：Learning Transferable Visual Models From Natural Language Supervision

我们已经研究了是否有可能将NLP中任务不可知的网络规模预训练的成功转移到另一个领域。我们发现采用这一公式会导致计算机视觉领域出现类似的行为，并讨论了这一研究方向的社会影响。为了优化其训练目标，CLIP模型在预训练期间学习执行各种各样的任务。然后，可以通过自然语言提示利用此任务学习来实现对许多现有数据集的零射击转移。在足够的规模上，这种方法的性能可以与特定于任务的监督模型竞争，尽管仍有很大的改进空间。

2024-11-05 16:41:24 332

原创图文检索（20）：Sketch Me That Shoe

数量：两种类别的数据集 1432 sketch-photo 对32000细粒度三元组排序注释三元组排序损失。

2024-11-05 09:22:06 476

原创图文检索（16）：IDC: Boost Text-to-Image Retrieval via Indirect and Direct Connections

本文：知识蒸馏，利用文本解码器模拟交叉模态交互双编码器（DE）框架将图像和文本输入映射到一个协调的表示空间中，并直接计算它们的相似度。而交叉注意（CA）框架在完成图像和文本的特征嵌入后进行模态交互，然后输出相似度得分。对于批量查询请求或大查询集的场景，后者更准确，但前者更快。因此，这项工作通过借鉴CA框架的优势找到了一种提高DE框架检索准确率的新方法。从图像字幕制作中汲取灵感，我们在模型训练阶段引入文本解码器来模拟跨模态交互功能，就像CA框架一样。文本解码器最终被丢弃，使我们的模型与DE框架保持一致。

2024-11-01 16:19:02 543

原创图文检索（19）：Cross-modal Prominent Fragments Enhancement Aligning Network for Image-text Retrieval

传统：平等对待突出和非突出词本文：增强显著片段对齐，减少非显著片段对齐增强突出片段图像文本语义对齐。

2024-10-31 15:15:00 391

原创图文检索（18）：MULTIWAY-ADAPTER: ADAPTING MULTIMODAL LARGE LANGUAGE MODELS FOR SCALABLE IMAGE-TEXT RETRIEV

大模型微调过程中增强模态间的对齐本文目的：增加一点参数量来降低微调时间（锁住原来的，只训练新参数），基本性能不怎么变化。

2024-10-30 15:46:03 353

原创图文检索（17）：A Lightweight and Effective Multi-View Knowledge Distillation Framework for Text-Image Retr

传统：蒸馏 single 知识类型本文：多视图知识蒸馏 LEMKD（Lightweight and Effective Multi-View Knowledge Distillation）三种知识大规模双流视觉语言预训练 (VLP) 模型为文本图像检索任务提供了有效的解决方案。尽管如此，它们的性能往往不如最新的单流模型，主要是因为细粒度的文本图像交互有限。最近的趋势表明这两种类型的网络将联合起来。一些方法采用检索和重新排序策略，其性能改进很大程度上取决于推理过程中的单流编码器。

2024-10-30 14:30:57 606

原创图文检索（15）：TSFE: Research on Transformer and Feature Enhancement Methods for Image-Text Retrieval

传统：单流本文：双流特征增强方法（TSFE，Transformer and Feature Enhancement Method）1）特征提取层2）特征增强注意力（FEA），增强显著特征3）引入通道注意力，过滤图像的冗余信息近年来，跨模态检索在信息检索、多媒体处理等领域得到广泛应用，其关键是通过一个模态查询找到另一个模态中的相关数据。在跨模态图形检索中，通常使用相互注意机制来交互图像和文本特征。然而，这种交互机制导致难以提取单独的视觉和文本特征进行后续的索引步骤，尤其是在大规模检索任务中。

2024-10-28 16:58:45 633

原创图文检索（14）：MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval

1）融合单流（性能好）和双流（离线索引）的优势2）将融合的单流特征合并到双流模型的图像和文本特征中，我们制定了新的修改后的教师相似性分布和特征由于大规模视觉语言预训练 (VLP) 模型的成功以及图文检索在工业领域的广泛应用，现在迫切需要减小模型大小并简化其移动设备部署。单流和双流模型结构通常用于图文检索，目的是缩小文本和视觉模态之间的语义鸿沟。单流模型使用深度特征融合来实现更准确的跨模型对齐，而双流模型更擅长离线索引和快速推理。

2024-10-28 15:42:00 403

原创图文检索（13）：High-Order Semantic Alignment for Unsupervised Fine-Grained Image-Text Retrieval

传统：全局or局部关系本文：全局and局部对齐1）名称：HOSA：high-order semantic alignment2）创新点：使用张量积（tensor product / t-product）。在公共语义空间中，根据一个模态信息，重建另一个模态的表示，增强模态间的细粒度学习由于视觉内容和语言之间存在语义差异，跨模态检索是一项重要而又具有挑战性的任务。为了测量图像和文本之间的相关性，大多数现有研究主要侧重于学习全局或局部对应关系，而未能探索细粒度的局部-全局对齐。

2024-10-28 09:46:21 742

原创图文检索（12）：How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

双编码器效率高，效果差跨模态编码器效率低，效果好本文：如何让跨编码器成为双编码器的老师？1）跨编码器相似度分布更集中，也就是positive和negative的差距更大。这就使得如果直接蒸馏效果会差，因为两者的分布差异太大。但是可以使用排名蒸馏2）接着1），如果使用排名蒸馏，那么只有 hard negative之间的排名才含有重要信息3）协调双编码器损失（对比损失） + 蒸馏损失，有利于知识转移蒸馏损失：通过对比学习来模仿困难负样本之间的相对顺序。

2024-10-25 16:15:23 656

原创图文检索（11）：Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval

组合图像检索CIR：参考图像 + 修改文本 --》检索图像由于数据标注困难，转向zero-shot，没有注释三元组？传统CIR转换成T2I，将参考图像先变成文本然后检索。缺点：图像反转文本过程可能粗粒度。本文细粒度文本反转FTI4CIR（Finegrained Textual Inversion Network for ZS-CIR）结构：1）细粒度伪词标记映射：将图像映射到一个面向主题的伪词标记和几个面向属性的伪词标记。

2024-10-25 10:31:10 1135

原创图文检索（10）：Multimodal Image-Text Representation Learning for Sketch-Less Facial Image Retrieval

1）预训练模型：对齐文本和图像2）sketch和text的多尺度特征无草图人脸图像检索 (SLFIR) 框架旨在打破绘制高质量人脸草图需要高超的技巧和大量时间的障碍，它使用尽可能少的笔画的部分草图进行检索。然而，这种早期草图通常只包含局部细节，导致检索性能不佳。在本研究中，我们提出通过将草图与先前的人类语义知识融合来学习表示，以提高早期检索性能。具体而言，(1) 基于 LAION-Face 数据集，构建面部语言图像预训练 (FLIP) 模型以学习人脸图像和文本的对齐表示；

2024-10-24 09:34:02 550

原创图文检索（9）：SceneDiff: Generative Scene-Level Image Retrieval with Text and Sketch Using Diffusion Model

传统直接融合文本和sketch特征，与图像对齐本文直接融合特征 + 潜在融合特征，与图像对齐联合使用文本和草图进行场景级图像检索利用文本和草图之间的互补性来描述细粒度的场景内容并检索目标图像，这对准确的图像检索起着至关重要的作用。现有的方法直接融合草图和文本的特征，因此存在对关键语义和结构信息利用有限的瓶颈，导致与图像的匹配不准确。在本文中，我们提出了一种新颖的检索网络SceneDiff，它利用预训练的扩散模型建立共享的生成潜在空间，实现草图和文本特征的联合潜在表示学习并与相应图像精确对齐。

2024-10-23 16:55:06 1233 1

原创图文检索（8）：Enhancing Cross-modal Completion and Alignment for Unsupervised Incomplete Text-to-Image Per

无监督、不完整、图文人物检索两个难点：图像和文本描述不完全匹配；缺乏身份标签本文方法：ECCA。针对不完整，使用跨模态补全；（补全）针对匹配歧视问题，在嵌入空间更紧凑映射（对齐）传统的文图人物检索方法严重依赖于完全匹配和身份标注的多模态数据，这是一种理想但有限的场景。处理不完整多模态数据的问题和标记多模态数据的复杂性是实际应用中常见的挑战。为了应对这些挑战，我们考虑一种更为稳健和实用的设置，称为无监督不完整文图人物检索，其中人物图像和文本描述不完全匹配，并且缺乏身份标签的监督。

2024-10-21 16:39:47 1149 1

原创图文检索（7）：You’ll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval

图像检索中主要有两种输入模式：草图和文本。虽然文本广泛用于类别间检索任务，但草图已成为细粒度图像检索的唯一首选模式，因为它们能够捕捉复杂的视觉细节。在本文中，我们通过同时探索草图和文本的细粒度表示能力，将两者结合起来，质疑仅依靠草图进行细粒度图像检索的可行性。最终结果实现了以前无法实现的精确检索，允许用户提出更精细的查询并结合文本中的颜色和上下文提示等属性。为此，我们引入了一个新颖的组合性框架，使用预先训练的 CLIP 模型有效地将草图和文本结合起来，同时消除了对大量细粒度文本描述的需求。

2024-10-21 15:20:29 895

原创图文检索（6）：CF-TCIR: A Compositor-Free Framework for Hierarchical Text-Conditioned Image Retrieval

在文本条件图像检索 (TCIR) 中，参考图像和修改文本的组合形成查询元组，旨在在数据集中找到最一致的目标图像。丰富的图像语义信息和文本灵活性的优势以这种方式结合在一起，以实现更准确的检索。虽然传统技术通常采用注意力驱动的合成器来制作统一的图像文本表示，但我们的论文介绍了一种无合成器框架 CF-TCIR，它避开了标准合成器。基于合成器的方法旨在学习图像和文本的联合表示，但它们很难直接捕捉图像和文本模态之间属性的相关性。相反，我们将检索过程重新表述为合成图像特征与其对应文本描述符之间的跨模态交互。

2024-10-18 10:31:21 601

原创图文检索综述（2）：Deep Multimodal Data Fusion

多模态人工智能 (Multimodal AI) 通常涉及各种类型的数据（例如，图像、文本或从不同传感器收集的数据）、特征工程（例如，提取、组合/融合）和决策（例如，多数表决）。随着架构变得越来越复杂，多模态神经网络可以将特征提取、特征融合和决策过程集成到一个模型中。这些过程之间的界限越来越模糊。融合所基于的传统多模态数据融合分类法（例如，早期/晚期融合）已不再适合现代深度学习时代。

2024-10-16 19:59:01 1905

原创图文检索综述（1）：Vision + X: A Survey on Multimodal Learning in the Light of Data

我们以多感官的方式感知世界并与世界交流，不同的信息源由人类大脑的不同部分进行复杂的处理和解释，从而构成一个复杂但和谐统一的感知系统。为了赋予机器真正的智能，近年来，随着技术的进步，结合各种来源数据的多模态机器学习已成为一个越来越受欢迎的研究领域。在本文中，我们从新颖的视角对多模态机器学习进行了概述，不仅考虑了纯技术方面，还考虑了不同数据模态的内在性质。我们分析了每种数据格式的共性和独特性，主要包括视觉、音频、文本和动作，然后介绍了按数据模态组合分类的方法论进步，例如视觉+文本，略微侧重于视觉数据。

2024-10-12 14:43:18 1168

原创图文检索（5）：Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach

在本文中，我们主要解决交互式文本到图像检索任务中的对话形式上下文查询问题。我们的方法 PlugIR 以两种方式积极利用 LLM 的一般指令跟踪能力。首先，通过重新制定对话形式上下文，我们消除了在现有视觉对话数据上微调检索模型的必要性，从而可以使用任意黑盒模型。其次，我们构建了 LLM 提问器，以基于当前上下文中的检索候选图像信息生成有关目标图像属性的非冗余问题。这种方法减轻了生成问题中的噪声和冗余问题。

2024-10-12 10:21:14 1291

原创图文检索（4）：Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval

当前的图文检索方法近年来表现出了令人瞩目的性能。然而，它们仍然面临两个问题：模态间匹配缺失问题和模态内语义丢失问题。这些问题会严重影响图文检索的准确性。为了解决这些挑战，我们提出了一种称为跨模态和单模态软标签对齐（CUSA）的新方法。我们的方法利用单模态预训练模型的强大功能为图文检索模型提供软标签监督信号。此外，我们引入了两种对齐技术，即跨模态软标签对齐（CSA）和单模态软标签对齐（USA），以克服假阴性并增强单模态样本之间的相似性识别。

2024-10-01 10:47:04 1141

空空如也

空空如也