AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.03.05-2024.03.10

本文链接：https://blog.csdn.net/weixin_44362044/article/details/136677691

论文目录~

1.RESTORE: Towards Feature Shift for Vision-Language Prompt Learning
2.In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model
3.DeepSeek-VL: Towards Real-World Vision-Language Understanding
4.Probabilistic Image-Driven Traffic Modeling via Remote Sensing
5.VLM-PL: Advanced Pseudo Labeling approach Class Incremental Object Detection with Vision-Language Model
6.Debiasing Large Visual Language Models
7.Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval
8.LVIC: Multi-modality segmentation by Lifting Visual Info as Cue
9.Med3DInsight: Enhancing 3D Medical Image Understanding with 2D Multi-Modal Large Language Models
10.CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model
11.Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities
12.How Far Are We from Intelligent Visual Deductive Reasoning?
13.ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes
14.CLIP the Bias: How Useful is Balancing Data in Multimodal Learning?
15.What makes an image realistic?
16.Effectiveness Assessment of Recent Large Vision-Language Models
17.MeaCap: Memory-Augmented Zero-shot Image Captioning
18.Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision
19.VastTrack: Vast Category Visual Object Tracking
20.Causality-based Cross-Modal Representation Learning for Vision-and-Language Navigation
21.Enhancing Vision-Language Pre-training with Rich Supervisions

1.RESTORE: Towards Feature Shift for Vision-Language Prompt Learning

标题:RESTORE：实现视觉语言提示学习的特征转移

author:Yuncheng Yang, Chuyan Zhang, Zuopeng Yang, Yuting Gao, Yulei Qin, Ke Li, Xing Sun, Jie Yang, Yun Gu

publish:18 pages, 5 figures

date Time:2024-03-10

paper pdf:http://arxiv.org/pdf/2403.06136v1

摘要：
提示学习对于微调基础模型以提高其在各种下游任务中的泛化能力非常有效。然而，沿着单一模态路径独立优化的提示可能会牺牲预训练模型的视觉语言一致性，以换取在特定任务和类别中性能的提高，从而导致泛化效果较差。在本文中，我们首先证明了只沿着 CLIP 的单一分支（如语言或视觉）进行提示调整是出现不对齐的原因。如果不对不同模态中的可学习参数进行适当的正则化，及时学习就会违反双塔架构固有的原始预训练约束。为了解决这种错位问题，我们首先提出了特征偏移，它被定义为引入所学提示后嵌入式的变化，作为一种解释工具。我们深入研究了它与泛化的关系，随后提出了 RESTORE，一种对跨模态一致性施加明确约束的多模态提示学习方法。更具体地说，为了防止特征错位，我们引入了特征偏移一致性，通过测量和正则化提示调整过程中的差异大小来同步模态间的特征偏移。此外，我们还提出了一个 "外科手术 "模块，以避免短路黑客的攻击，因为如果每种模态的特征偏移以相同的速率急剧变化，跨模态错位仍然会很严重。它是以前馈适配器的形式在两种模态上实现的，以缓解错位问题。在 15 个数据集上进行的大量实验表明，我们的方法在不影响特征对齐的情况下，优于最先进的提示调整方法。

2.In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model

标题:利用冻结视觉语言模型进行测试时间视觉识别的上下文提示学习

author:Junhui Yin, Xinyu Zhang, Lin Wu, Xianghua Xie, Xiaojie Wang

date Time:2024-03-10

paper pdf:http://arxiv.org/pdf/2403.06126v1

摘要：
现有的预训练视觉语言模型（如 CLIP）已在各种下游任务中表现出令人印象深刻的零点泛化能力。然而，当测试输入呈现不同分布时，这些模型的性能就会明显下降。为此，我们探索了测试时间及时调整（TTPT）的概念，它只需对涉及测试样本的无监督目标进行一步优化，就能使 CLIP 模型适应新的下游任务。受自然语言处理（NLP）领域的上下文学习（In-Context Learning）的启发，我们提出了针对测试时间视觉识别任务的上下文提示学习（InCPL）。InCPL 将一个新的测试样本与极少甚至只有一个标注过的示例关联起来，作为其上下文提示。因此，它能可靠地估计测试样本的标签，从而促进模型适应过程。InCPL 首先利用标记网将语言描述表示为 CLIP 模型视觉编码器可以理解的视觉提示。结合上下文示例，我们进一步提出了一种上下文感知的无监督损失，以优化测试样本感知的视觉提示。通过这种优化，预先训练好的冷冻 CLIP 模型可以利用其学习到的自适应提示适应任何任务的测试样本。我们的方法表现出卓越的性能，在各种下游数据集上取得了最先进的结果。

3.DeepSeek-VL: Towards Real-World Vision-Language Understanding

标题:DeepSeek-VL：实现真实世界的视觉语言理解

author:Haoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Hao Yang, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan

publish:https://github.com/deepseek-ai/DeepSeek-VL

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05525v2

摘要：
我们推出的 DeepSeek-VL 是一个开源的视觉语言（VL）模型，专为真实世界的视觉和语言理解应用而设计。我们的方法围绕三个关键维度展开：我们努力确保数据的多样性和可扩展性，并广泛涵盖现实世界的各种场景，包括网页截图、PDF、OCR、图表和基于知识的内容，旨在全面呈现实际语境。此外，我们还根据真实用户场景创建了用例分类法，并据此构建了指令调整数据集。利用该数据集进行的微调大大改善了模型在实际应用中的用户体验。考虑到大多数实际应用场景的效率和需求，DeepSeek-VL采用了混合视觉编码器，可高效处理高分辨率图像（1024 x 1024），同时保持相对较低的计算开销。这一设计选择确保了该模型在各种视觉任务中捕捉关键语义和细节信息的能力。我们认为，一个熟练的视觉语言模型首先应具备强大的语言能力。为了确保在预训练过程中保留 LLM 的能力，我们研究了一种有效的 VL 预训练策略，即从一开始就整合 LLM 训练，并仔细管理视觉和语言模式之间的竞争动态。 DeepSeek-VL 系列（包括 1.3B 和 7B 模型）作为视觉语言聊天机器人在现实世界的应用中展示了卓越的用户体验，在相同模型大小的各种视觉语言基准测试中取得了最先进或具有竞争力的性能，同时在以语言为中心的基准测试中保持了强劲的性能。我们公开了 1.3B 和 7B 模型，以促进基于该基础模型的创新。

4.Probabilistic Image-Driven Traffic Modeling via Remote Sensing

标题:通过遥感进行图像驱动的概率交通建模

author:Scott Workman, Armin Hadzic

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05521v1

摘要：
这项工作的任务是直接从高空图像中建立时空交通模式模型，我们称之为图像驱动的交通建模。我们扩展了这一研究方向，引入了一种基于变压器的多模式、多任务分割架构，可用于创建密集的城市规模交通模型。我们的方法包括一个用于整合地理时空背景的地理时空位置编码模块，以及一个用于估算交通速度的概率目标函数，该函数可自然地模拟时间变化。我们使用动态交通速度（DTS）基准数据集对我们的方法进行了广泛评估，结果显示，我们的方法明显优于最先进的方法。最后，我们介绍了 DTS++ 数据集，以支持与移动相关的位置适应性实验。

5.VLM-PL: Advanced Pseudo Labeling approach Class Incremental Object Detection with Vision-Language Model

标题:VLM-PL：利用视觉语言模型的高级伪标签方法类增量目标检测

author:Junsu Kim, Yunhoe Ku, Jihyeon Kim, Junuk Cha, Seungryul Baek

publish:pre-print, under-review

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05346v1

摘要：
在类增量对象检测（CIOD）领域，创建能够像人类一样持续学习的模型是一项重大挑战。伪标记方法虽然最初功能强大，但由于容易遗忘过去的知识，因此在多场景增量学习方面举步维艰。为了克服这一问题，我们引入了一种名为视觉语言模型辅助伪标记（VLM-PL）的新方法。这项技术利用视觉语言模型（VLM）来验证伪地面真值（GT）的正确性，而无需额外的模型训练。VLM-PL 首先从预先训练好的检测器中推导出伪地面信息。然后，我们使用精心设计的提示模板，结合图像和文本特征，为每个伪地面信息生成自定义查询。这样，VLM 就能通过其响应对正确性进行分类。此外，VLM-PL 还整合了即将进行的训练中提炼出的伪 GT 和真 GT，有效地结合了新旧知识。在 Pascal VOC 和 MS COCO 数据集上进行的大量实验不仅凸显了 VLM-PL 在多场景中的卓越性能，而且还阐明了它在双场景中的有效性，在这两种场景中都取得了最先进的结果。

6.Debiasing Large Visual Language Models

标题:消除大型视觉语言模型的偏差

author:Yi-Fan Zhang, Weichen Yu, Qingsong Wen, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan

publish:38 pages, 17 figures

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05262v1

摘要：
在计算机视觉和自然语言处理领域，大型视觉语言模型（LVLMs）已成为不可或缺的工具，能够熟练地根据视觉输入生成文本描述。尽管它们取得了进步，但我们的研究发现，生成的内容存在值得注意的偏差，即输出主要受底层大型语言模型（LLMs）的先验影响，而不是受输入图像的影响。我们的实证实验强调了这种偏差的持续性，因为即使在没有相关图像或给定不一致的视觉输入的情况下，大型语言模型也经常提供有把握的答案。为了纠正这些偏差，并将模型的注意力重新引向视觉信息，我们引入了两种简单、无需训练的策略。首先，对于分类或多选问题解答（QA）等任务，我们提出了通过仿射变换调整输出分布的 "校准 "步骤。这种 "事后修正 "方法可确保在图像缺失时每个答案的得分一致，是一种有效的正则化技术，可减轻 LLM 先验的影响。对于更复杂的开放式生成任务，我们从对比解码方法中汲取灵感，将这种方法扩展为 “Debias 采样”。此外，我们的研究还揭示了 LVLM 在不同解码配置下的不稳定性。通过对不同设置的系统探索，我们显著提高了性能，超越了已报道的结果，并引起了人们对现有评估公平性的关注。综合实验证明了我们提出的策略在减少偏差方面的有效性。事实证明，这些策略不仅有利于最大限度地减少幻觉，还有助于生成更有用、更精确的插图。

7.Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval

标题:图像-文本检索中的跨模态和单模态软标记对齐

author:Hailang Huang, Zhijie Nie, Ziqiao Wang, Ziyu Shang

publish:9 pages, Accepted by AAAI2024

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05261v1

摘要：
近年来，当前的图像-文本检索方法已经取得了令人瞩目的成绩。然而，它们仍然面临两个问题：模态间匹配缺失问题和模态内语义损失问题。这些问题会严重影响图像-文本检索的准确性。为了解决这些问题，我们提出了一种名为 "跨模态和单模态软标记对齐（CUSA）"的新方法。我们的方法利用单模态预训练模型的力量，为图像文本检索模型提供软标签监督信号。此外，我们还引入了两种对齐技术，即跨模态软标签对齐（CSA）和单模态软标签对齐（USA），以克服误判，提高单模态样本之间的相似性识别能力。我们的方法设计为即插即用，这意味着它可以轻松地应用于现有的图像-文本检索模型，而无需改变其原始架构。我们在各种图像-文本检索模型和数据集上进行了广泛的实验，证明我们的方法可以持续提高图像-文本检索的性能，并取得新的一流成果。此外，我们的方法还能提高图像文本检索模型的单模态检索性能，使其实现通用检索。代码和补充文件可在 https://github.com/lerogo/aaai24_itr_cusa 上找到。

8.LVIC: Multi-modality segmentation by Lifting Visual Info as Cue

标题:LVIC：以视觉信息为线索进行多模态分割

author:Zichao Dong, Bowen Pang, Xufeng Huang, Hang Ji, Xin Zhan, Junbo Chen

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05159v1

摘要：
多模态融合已被证明是自动驾驶三维感知的有效方法。然而，目前大多数用于激光雷达语义分割的多模态融合管道都具有复杂的融合机制。点绘制是一种非常简单的方法，可直接将激光雷达点与视觉信息结合起来。遗憾的是，以前的点绘制类似方法存在相机和激光雷达之间的投影误差。在我们的实验中，我们发现这种投影误差是点绘制中的魔鬼。因此，我们提出了一种深度感知的点绘制机制，它大大提高了多模态融合的效果。除此之外，我们还深入研究了激光雷达所需的视觉特征，以便进行语义分割。通过提升视觉信息作为线索，LVIC 在 nuScenes LiDAR 语义分割基准测试中排名第一。我们的实验证明了其稳健性和有效性。代码将很快公开。

9.Med3DInsight: Enhancing 3D Medical Image Understanding with 2D Multi-Modal Large Language Models

标题:Med3DInsight：利用二维多模态大语言模型增强三维医学影像理解能力

author:Qiuhui Chen, Huping Ye, Yi Hong

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05141v1

摘要：
理解三维医学图像卷是医疗领域的一项关键任务。然而，现有的基于三维卷积和变换器的方法对图像体积的语义理解有限，而且需要大量体积集进行训练。多模态大语言模型（MLLMs）的最新进展为借助文本描述理解图像提供了一种新的有前途的方法。然而，目前大多数 MLLM 都是针对二维自然图像设计的。为了利用二维 MLLM 增强对三维医学图像的理解，我们提出了一种名为 Med3DInsight 的新型预训练框架，它将现有的三维图像编码器与二维 MLLM 相结合，并通过设计的平面-切片感知变换器（PSAT）模块将它们连接起来。广泛的实验证明了我们的 SOTA 在两个下游分割和分类任务上的性能，包括 CT 和 MRI 模式的三个公共数据集，以及与十多个基线的比较。Med3DInsight 可以轻松集成到当前任何三维医学影像理解网络中，并显著提高其性能。

10.CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model

标题:CLIP-Gaze：通过视觉语言模型实现一般注视估计

author:Pengwei Yin, Guanzhong Zeng, Jingjing Wang, Di Xie

publish:Accepted to AAAI 2024

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05124v1

摘要：
由于测试数据和训练数据之间存在领域差距，在对不同领域进行评估时，凝视估计方法的性能往往会明显下降。现有方法试图利用各种领域泛化方法来解决这一问题，但由于凝视数据集的多样性有限（如外观、可穿戴设备和图像质量），因此收效甚微。为了克服这些局限性，我们提出了一种名为 CLIP-Gaze 的新型框架，该框架利用预先训练好的视觉语言模型，充分利用其可转移的知识。我们的框架是首个利用视觉和语言跨模态方法来完成凝视估计任务的框架。具体来说，我们从与注视无关的特征中提取与注视相关的特征，这些特征可通过语言描述灵活构建。为了学习更合适的提示，我们提出了一种用于文本提示调整的个性化语境优化方法。此外，我们还利用注视样本之间的关系来完善注视相关特征的分布，从而提高注视估计模型的泛化能力。广泛的实验证明，CLIP-Gaze 在四个跨领域评估中的表现优于现有方法。

11.Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities

标题:跨视觉模式的边缘设备自适应大型视觉语言模型

author:Kaiwen Cai, Zhekai Duan, Gaowen Liu, Charles Fleming, Chris Xiaoxuan Lu

publish:Under review

date Time:2024-03-07

paper pdf:http://arxiv.org/pdf/2403.04908v1

摘要：
视觉语言（VL）模型的最新进展引发了人们对在边缘设备上部署这些模型的兴趣，但在处理各种视觉模式、人工标注和计算限制方面仍然存在挑战。我们介绍的 EdgeVL 是一个新颖的框架，它通过无缝集成双模态知识提炼和量化感知对比学习，弥补了这一差距。通过这种方法，可以对 CLIP 等大型 VL 模型进行调整，以便在资源有限的设备上高效地使用 RGB 和非 RGB 图像，而无需手动注释。EdgeVL 不仅能将视觉语言对齐功能转移到紧凑型模型中，还能在量化后保持特征质量，从而显著提高各种视觉模式下的开放词汇分类性能。我们的工作代表了为边缘部署调整大型 VL 模型的首次系统性努力，在多个数据集上展示了高达 15.4% 的准确率提升和高达 93 倍的模型尺寸缩减。

12.How Far Are We from Intelligent Visual Deductive Reasoning?

标题:我们离智能视觉演绎推理还有多远？

author:Yizhe Zhang, He Bai, Ruixiang Zhang, Jiatao Gu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly

publish:ICLR 2024 AGI workshop. https://github.com/apple/ml-rpm-bench

date Time:2024-03-07

paper pdf:http://arxiv.org/pdf/2403.04732v2

摘要：
最近，GPT-4V 等视觉语言模型（VLM）在各种视觉语言任务中取得了令人难以置信的进步。我们深入研究了基于视觉的演绎推理这一更为复杂但探索较少的领域，并发现了当前 SOTA 视觉语言模型中尚未暴露的盲点。具体来说，我们利用瑞文渐进矩阵（RPM）来评估 VLM 仅依靠视觉线索进行多跳关系和演绎推理的能力。我们在三个不同的数据集（包括 Mensa IQ 测试、IntelligenceTest 和 RAVEN）上对几种流行的 VLM 进行了全面评估，这些 VLM 采用了标准策略，如上下文学习、自我一致性和思维链（CoT）。结果表明，尽管 LLM 在文本推理方面的能力令人印象深刻，但我们在视觉演绎推理方面仍远未达到可比的熟练程度。我们发现，某些在 LLMs 中有效的标准策略并不能完美地应对视觉推理任务带来的挑战。此外，详细的分析表明，VLMs 在解决这些任务时之所以举步维艰，主要是因为他们无法感知和理解 RPM 示例中多种混淆的抽象模式。

13.ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes

标题:ObjectCompose：评估基于视觉的模型对物体与背景构成变化的适应能力

author:Hashmat Shadab Malik, Muhammad Huzaifa, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan

date Time:2024-03-07

paper pdf:http://arxiv.org/pdf/2403.04701v1

摘要：
考虑到最近基于视觉的模型的大规模多模态训练及其泛化能力，了解其鲁棒性的程度对其在现实世界中的应用至关重要。在这项工作中，我们评估了当前基于视觉的模型对不同物体-背景环境变化的适应能力。大多数鲁棒性评估方法都采用了合成数据集来诱发物体特征（视点、比例、颜色）的变化，或在真实图像上利用图像转换技术（对抗性变化、常见损坏）来模拟分布的变化。最近的研究还探索利用大型语言模型和扩散模型来生成背景变化。然而，这些方法要么无法控制将要发生的变化，要么会扭曲对象语义，因此不适合这项任务。而我们的方法则能在保持物体原有语义和外观的前提下，诱发物体到背景的各种变化。为了实现这一目标，我们利用文本到图像、图像到文本和图像到片段模型的生成能力，自动生成了广泛的对象到背景的变化。我们通过修改文本提示或优化文本到图像模型的潜变量和文本嵌入来诱导自然和对抗性背景变化。这使我们能够量化背景环境在理解深度神经网络的鲁棒性和泛化方面的作用。我们制作了各种版本的标准视觉数据集（ImageNet、COCO），在图像中加入了不同的真实背景，或在背景中引入了颜色、纹理和对抗性变化。我们进行了大量实验，以分析基于视觉的模型在不同任务中应对物体与背景环境变化的鲁棒性。

14.CLIP the Bias: How Useful is Balancing Data in Multimodal Learning?

标题:消除偏见：平衡数据在多模态学习中的作用有多大？

author:Ibrahim Alabdulmohsin, Xiao Wang, Andreas Steiner, Priya Goyal, Alexander D’Amour, Xiaohua Zhai

publish:32 pages, 20 figures, 7 tables

date Time:2024-03-07

paper pdf:http://arxiv.org/pdf/2403.04547v1

摘要：
我们研究了数据平衡在减轻对比语言-图像预训练（CLIP）中的偏差方面的有效性，确定了其优势和局限领域。首先，我们重申了之前的结论，即 CLIP 模型会无意中吸收社会成见。为此，我们提出了一种名为多模态矩匹配（M4）的新算法，旨在减少多模态数据中的表征和关联偏差（即一阶和二阶统计）。我们使用 M4 进行了深入分析，其中考虑到了各种因素，如模型、表示和数据大小。我们的研究还探讨了 CLIP 如何学习和解除偏差的动态性质。特别是，我们发现微调能有效消除表征偏差，但其对关联偏差的影响会减弱。此外，数据平衡对质量的影响也是好坏参半：它倾向于改善分类，但也会损害检索。有趣的是，数据和架构的改进似乎减轻了数据平衡对性能的负面影响；例如，将 M4 应用于带有数据质量过滤器的 SigLIP-B/16，COCO 图像到文本检索 @5 从 86%（无数据平衡）提高到 87%，ImageNet 0-shot 分类从 77% 提高到 77.5%！最后，我们提出了在多模态系统中提高数据平衡效率的建议。

15.What makes an image realistic?

标题:是什么让图像变得逼真？

author:Lucas Theis

date Time:2024-03-07

paper pdf:http://arxiv.org/pdf/2403.04493v3

摘要：
过去十年中，我们在生成逼真数据（无论是图像、文本、音频还是视频）的能力方面取得了巨大进步。在这里，我们将讨论与之密切相关的量化逼真度问题，也就是设计出能够可靠地区分逼真数据与非逼真数据的函数。尽管这个问题在机器学习中非常普遍，而且最近在生成式人工智能领域也取得了突破性进展，但事实证明这个问题更难解决，而且仍然鲜为人知。借鉴算法信息论的见解，我们讨论了为什么这个问题具有挑战性，为什么仅有好的生成模型不足以解决这个问题，以及好的解决方案是什么样的。我们特别引入了通用批判者的概念，它与对抗批判者不同，不需要对抗训练。虽然通用批判者不能立即实用，但它们既可以作为指导实际应用的北极星，也可以作为分析现有的捕捉现实性尝试的工具。

16.Effectiveness Assessment of Recent Large Vision-Language Models

标题:近期大型视觉语言模型的效果评估

author:Yao Jiang, Xinyu Yan, Ge-Peng Ji, Keren Fu, Meijun Sun, Huan Xiong, Deng-Ping Fan, Fahad Shahbaz Khan

date Time:2024-03-07

paper pdf:http://arxiv.org/pdf/2403.04306v1

摘要：
大型视觉语言模型（LVLM）的出现代表了人工通用智能领域值得关注的进步。然而，它们在专门任务和一般任务中的功效如何，还需要进一步研究。本文试图分别评估流行的大视觉模型在专业任务和一般任务中的能力，旨在全面了解这些创新方法。为了评估 LVLM 在专业任务中的功效，我们定制了一个综合测试平台，包括三个不同的场景：自然、医疗保健和工业，涵盖六个具有挑战性的任务。这些任务包括突出物体、伪装物体和透明物体检测、息肉和皮肤病变检测以及工业异常检测。我们研究了三种最新开源 LVLM（MiniGPT-v2、LLaVA-1.5 和 Shikra）在视觉识别和定位领域的性能。此外，我们还利用上述模型和 GPT-4V 进行了实证研究，评估了它们在物体计数、荒谬问题解答、承受力推理、属性识别和空间关系推理等一般任务中的多模态理解能力。我们的研究表明，这些模型不仅在专门任务中表现出有限的能力，在一般任务中也是如此。我们深入探讨了这一不足，并提出了几个潜在的因素，包括在专门任务中的认知能力有限、物体幻觉、文本到图像的干扰以及在复杂问题中的鲁棒性下降。我们希望这项研究能为 LVLM 的未来发展提供有价值的见解，增强其应对一般和特殊应用的能力。

17.MeaCap: Memory-Augmented Zero-shot Image Captioning

标题:MeaCap：内存增强型零镜头图像字幕制作

author:Zequn Zeng, Yan Xie, Hao Zhang, Chiyu Chen, Zhengjue Wang, Bo Chen

publish:Accepted by CVPR2024

date Time:2024-03-06

paper pdf:http://arxiv.org/pdf/2403.03715v1

摘要：
没有配对好的图像-文本数据的零镜头图像字幕制作（IC）可分为两类：免训练和纯文本训练。一般来说，这两类方法通过整合用于图像-文本相似性评估的预训练视觉语言模型（如 CLIP）和用于字幕生成的预训练语言模型（LM）来实现零镜头图像字幕。它们之间的主要区别在于是否使用文本语料库来训练 LM。虽然在某些指标上取得了令人满意的性能，但现有方法往往表现出一些共同的缺点。免训练方法往往会产生幻觉，而纯文本训练往往会失去泛化能力。为了向前迈进，我们在本文中提出了一种新颖的零镜头图像字幕记忆增强框架（MeaCap）。具体来说，在文本记忆的基础上，我们引入了先检索后过滤模块，以获取与图像高度相关的关键概念。通过在关键词到句子的 LM 中部署我们提出的记忆增强视觉相关融合得分，MeaCap 可以生成以概念为中心的标题，这些标题与图像保持高度一致，同时具有更少的幻觉和更多的世界知识。MeaCap 框架在一系列零镜头集成电路设置上实现了最先进的性能。我们的代码见 https://github.com/joeyz0z/MeaCap。

18.Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision

标题:从文本监督中学习开放词汇语义分割的多粒度跨模态对齐方法

author:Yajie Liu, Pu Ge, Qingjie Liu, Di Huang

publish:17 pages, 8 figures

date Time:2024-03-06

paper pdf:http://arxiv.org/pdf/2403.03707v1

摘要：
最近，从文本监督中学习开放词汇语义分割取得了可喜的下游性能。然而，由于缺乏高密度注释，目前的方法在对齐粒度上存在差距，即在训练过程中学习粗略的图像/区域-文本对齐，但在推理时执行组/像素级预测。这种差异导致了次优的学习效率和较差的零点分割结果。在本文中，我们介绍了多粒度跨模态对齐（MGCA）框架，该框架明确地学习像素级对齐以及对象和区域级对齐，从而在没有任何密集注释的情况下弥合粒度差距。具体来说，MGCA 巧妙地构建了图像-文本对的伪多粒度语义对应关系，并与硬采样策略合作，促进了细粒度的跨模态对比学习。此外，我们还指出了现有的群组和像素预测单元在下游分割中的缺陷，并开发了一种自适应语义单元，有效缓解了其分割不足和分割过度等困境。仅在 CC3M 上进行训练，我们的方法就比最先进的方法取得了显著进步，证明了其有效性和效率。

19.VastTrack: Vast Category Visual Object Tracking

标题:VastTrack：大类视觉对象跟踪

author:Liang Peng, Junyuan Gao, Xinran Liu, Weihong Li, Shaohua Dong, Zhipeng Zhang, Heng Fan, Libo Zhang

publish:Tech. report

date Time:2024-03-06

paper pdf:http://arxiv.org/pdf/2403.03493v1

摘要：
在本文中，我们介绍了一种名为 VastTrack 的新型基准，旨在通过涵盖丰富的类别和视频来促进更通用的视觉跟踪技术的发展。VastTrack 具有几个极具吸引力的特性：(1) 大量对象类别。特别是，它涵盖了 2,115 个类别的目标对象，大大超过了现有流行基准的对象类别（例如，GOT-10k 包含 563 个类别，LaSOT 包含 70 个类别）。有了如此庞大的对象类别，我们有望学习到更多的通用对象跟踪知识。(2) 规模更大。与目前的基准相比，VastTrack 提供了 50,610 个序列和 420 万帧视频，是迄今为止视频数量最多的基准，因此可以在深度学习时代训练出更强大的视觉跟踪器。(3) 丰富的注释。除了传统的边界框注释，VastTrack 还为视频提供语言描述。VastTrack 丰富的注释功能可同时支持纯视觉追踪和视觉语言追踪。为确保精确的注释，所有视频都是人工标注的，并经过多轮仔细检查和完善。为了了解现有追踪器的性能，并为今后的比较提供基准，我们对 25 种具有代表性的追踪器进行了广泛评估。不出所料，由于缺乏丰富的类别和不同场景的视频来进行训练，结果显示与当前数据集上的结果相比，跟踪器的性能明显下降。我们的 VastTrack 和所有评估结果将在 https://github.com/HengLan/VastTrack 上公布。

20.Causality-based Cross-Modal Representation Learning for Vision-and-Language Navigation

标题:基于因果关系的视觉语言导航跨模态表征学习

author:Liuyi Wang, Zongtao He, Ronghao Dang, Huiyi Chen, Chengju Liu, Qijun Chen

publish:16 pages

date Time:2024-03-06

paper pdf:http://arxiv.org/pdf/2403.03405v1

摘要：
近年来，视觉语言导航（VLN）因其在现实世界中的潜在应用而备受研究关注。然而，现有的 VLN 方法难以解决虚假关联的问题，导致泛化效果不佳，在可见环境和未见环境之间存在明显的性能差距。在本文中，我们提出了一个基于因果学习范式的统一框架 CausalVLN，以训练一个能够学习无偏见特征表征的稳健导航器，从而应对这一挑战。具体来说，我们利用结构化因果模型（SCM）建立了 VLN 中视觉和语言混杂因素的合理假设。在此基础上，我们提出了一种基于后门的迭代表征学习（IBRL）方法，可对混杂因素进行自适应的有效干预。此外，我们还引入了视觉和语言后门因果编码器，以便在训练和验证过程中对多模态进行无偏见的特征表达，从而增强代理在不同环境中的泛化能力。在三个 VLN 数据集（R2R、RxR 和 REVERIE）上进行的实验表明，我们提出的方法优于以往最先进的方法。此外，详细的可视化分析表明，CausalVLN 能有效地缩小已见环境和未见环境之间的性能差距，突出了其强大的泛化能力。

21.Enhancing Vision-Language Pre-training with Rich Supervisions

标题:利用丰富的监督功能加强视觉语言预训练

author:Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto

publish:Accepted to CVPR 2024

date Time:2024-03-05

paper pdf:http://arxiv.org/pdf/2403.03346v1

摘要：
我们提出了利用屏幕截图（ScreenShots）进行强监督预训练（S4）–一种利用大规模网络截图渲染数据对视觉语言模型进行预训练的新型范例。使用网页截图可以发掘视觉和文本线索宝库，而这些线索是使用图像-文本对时所不具备的。在 S4 中，我们利用 HTML 元素固有的树状结构层次和空间定位功能，精心设计了 10 个使用大规模注释数据的预训练任务。这些任务与不同领域的下游任务相似，而且注释的获取成本很低。我们证明，与当前的屏幕截图预训练目标相比，我们的创新预训练方法显著提高了图像到文本模型在九个不同的流行下游任务中的性能–在表格检测中提高了 76.1%，在小部件标题中提高了至少 1%。