AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.08.10-2024.08.15

最新推荐文章于 2024-10-06 21:45:11 发布

小小帅AIGC

最新推荐文章于 2024-10-06 21:45:11 发布

阅读量797

点赞数 15

分类专栏： VLM论文时报文章标签：人工智能语言模型计算机视觉 LLM 视觉语言模型 VLM

本文链接：https://blog.csdn.net/weixin_44362044/article/details/141753837

版权

VLM论文时报专栏收录该内容

45 篇文章 23 订阅

订阅专栏

文章目录～

1.Towards Flexible Visual Relationship Segmentation
2.When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding
3.Do Vision-Language Foundational models show Robust Visual Perception?
4.IFShip: A Large Vision-Language Model for Interpretable Fine-grained Ship Classification via Domain Knowledge-Enhanced Instruction Tuning
5.OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature Learning
6.ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers
7.Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization
8.Robust Domain Generalization for Multi-modal Object Recognition
9.Efficient and Versatile Robust Fine-Tuning of Zero-shot Models
10.Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval
11.Disentangled Noisy Correspondence Learning
12.Multi-agent Planning using Visual Language Models
13.FuXi Weather: An end-to-end machine learning weather data assimilation and forecasting system

1.Towards Flexible Visual Relationship Segmentation

标题:实现灵活的视觉关系分割

author:Fangrui Zhu, Jianwei Yang, Huaizu Jiang

date Time:2024-08-15

paper pdf:http://arxiv.org/pdf/2408.08305v1

摘要：
在人-物互动（HOI）检测、场景图生成（SGG）和引用关系（RR）任务中，人们分别对视觉关系理解进行了研究。鉴于这些任务的复杂性和相互关联性，建立一个灵活的框架，以统一的方式有效地处理这些任务至关重要。在这项工作中，我们提出了 FleVRS，这是一个在标准和可提示视觉关系分割中无缝集成了上述三个方面的单一模型，并进一步具备了开放词汇分割的能力，以适应新的场景。FleVRS 利用文本和图像模式之间的协同作用，将图像中的各种类型的关系基础化，并将视觉语言模型中的文本特征用于视觉概念理解。各种数据集的实证验证表明，我们的框架在标准、可提示和开放词汇任务中的表现优于现有模型，例如，在 HICO-DET 中为 +1.9 $m A P$ ，在 VRD 中为 +11.4 $A cc$ ，在未见 HICO-DET 中为 +4.7 $m A P$ 。我们的 FleVRS 是朝着更直观、更全面、更可扩展地理解视觉关系迈出的重要一步。

2.When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

标题:当视频编码遇到多模态大语言模型：视频编码的统一范式

author:Pingping Zhang, Jinlong Li, Meng Wang, Nicu Sebe, Sam Kwong, Shiqi Wang

date Time:2024-08-15

paper pdf:http://arxiv.org/pdf/2408.08093v1

摘要：
现有编解码器的设计目的是消除内在冗余，以创建用于压缩的紧凑表示。然而，在视频压缩中，来自多模态大语言模型（MLLM）的强外部先验尚未被明确探索。在本文中，我们介绍了跨模态视频编码（CMVC）的统一范式，这是一种在视频编码中探索多模态表示和视频生成模型的开创性方法。具体来说，在编码器方面，我们将视频分解为空间内容和运动组件，然后将其转换为不同的模态，利用 MLLM 实现非常紧凑的表示。在解码过程中，我们利用先前编码的组件和视频生成模型创建了多种编码-解码模式，针对特定的解码要求优化视频重建质量，包括文本-文本-视频（TT2V）模式，以确保高质量的语义信息；图像-文本-视频（IT2V）模式，以实现极佳的感知一致性。此外，我们还为 IT2V 模式提出了一种高效的帧插值模型，通过调整低位自适应（Low-Rank Adaption，LoRA）来保证感知质量，从而使生成的运动线索表现平滑。基准实验表明，TT2V 实现了有效的语义重建，而 IT2V 则表现出具有竞争力的感知一致性。这些结果突出了未来视频编码研究的潜在方向。

3.Do Vision-Language Foundational models show Robust Visual Perception?

标题:视觉语言基础模型是否显示了稳健的视觉感知？

author:Shivam Chandhok, Pranav Tandon

publish:UBC Report

date Time:2024-08-13

paper pdf:http://arxiv.org/pdf/2408.06781v1

摘要：
视觉语言基础模型的最新进展使得能够执行视觉理解和推理任务的系统得以开发。然而，目前还不清楚这些模型对分布变化是否具有鲁棒性，也不清楚它们的性能和泛化能力在数据分布变化时如何变化。在本项目中，我们努力回答 "视觉语言基础模型是否能像人类感知那样对分布变化保持稳健？具体来说，我们考虑了各种视觉语言模型，并比较了这些系统的性能如何受到实际现实世界场景中常见的基于腐败的分布变化（如 \textit{运动模糊、雾、雪、高斯噪声}）的影响。我们从定性和定量的角度分析了上述分布偏移情况下零镜头图像分类任务的泛化能力。我们的代码将发布在 \url{https://github.com/shivam-chandhok/CPSC-540-Project} 网站上。

4.IFShip: A Large Vision-Language Model for Interpretable Fine-grained Ship Classification via Domain Knowledge-Enhanced Instruction Tuning

标题:IFShip：通过领域知识增强指令调整实现可解释的精细船舶分类的大型视觉语言模型

author:Mingning Guo, Mengwei Wu, Yuxiang Shen, Haifeng Li, Chao Tao

date Time:2024-08-13

paper pdf:http://arxiv.org/pdf/2408.06631v1

摘要：
端到端解释是目前遥感精细船舶分类（RS-FGSC）任务的主流模式。然而，其推理过程是不可解释的，因此被批评为黑箱模型。为了解决这个问题，我们提出了一种名为 IFShip 的大型视觉语言模型（LVLM），用于可解释的细粒度船舶分类。与传统方法不同，IFShip 通过用自然语言准确传达 FGSC 的推理过程，在可解释性方面表现出色。具体来说，我们首先设计了一种领域知识增强型思维链（COT）提示生成机制。该机制用于半自动地构建一个名为 TITANIC-FGS 的特定任务指令遵循数据集，该数据集模拟了类似人类的逻辑决策。然后，我们使用经 TITANIC-FGS 数据集调整的任务指令来训练 IFShip 模型。在 IFShip 的基础上，我们开发了一个 FGSC 可视化聊天机器人，它将 FGSC 问题重新定义为逐步推理任务，并用自然语言传达推理过程。实验结果表明，所提出的方法在分类可解释性和准确性方面都超越了最先进的 FGSC 算法。此外，与 LLaVA 和 MiniGPT-4 等 LVLM 相比，我们的方法在 FGSC 任务中表现出了卓越的专业性。当细粒度的船舶类型可被人眼识别时，它能提供准确的推理链；当无法识别时，它能提供可解释的解释。

5.OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature Learning

标题:OmniCLIP：利用时空全方位特征学习调整 CLIP 以用于视频识别

author:Mushui Liu, Bozheng Li, Yunlong Yu

publish:ECAI-2024

date Time:2024-08-12

paper pdf:http://arxiv.org/pdf/2408.06158v1

摘要：
最近的视觉语言模型（VLMs）（textit{e.g.} CLIP）在视频识别方面取得了巨大进展。CLIP 在视频识别领域取得了巨大进步。尽管在提取空间特征方面强大的视觉骨干带来了改进，但 CLIP 在捕捉和整合时空特征方面仍然存在不足，而时空特征对于视频识别是至关重要的。在本文中，我们提出了 OmniCLIP，这是一个将 CLIP 用于视频识别的框架，它侧重于学习涵盖空间、时间和动态时空尺度的综合特征，我们称之为全方位特征。这是通过设计包含并行时态适配器（PTA）的时空块来实现的，从而实现高效的时态建模。此外，我们还引入了一个自提示生成器（SPG）模块，以捕捉动态对象的空间特征。PTA 和 SPG 之间的协同作用使 OmniCLIP 能够辨别各帧的不同空间信息，并评估物体随时间变化的尺度。我们在有监督的视频识别、少镜头视频识别和零镜头识别任务中进行了广泛的实验。实验结果证明了我们方法的有效性，特别是 OmniCLIP 在 HMDB51 上的 16 次拍摄设置中达到了 74.30% 的最高准确率，即使在有完整训练数据的情况下也超过了最近的 MotionPrompt 方法。代码可在\url{https://github.com/XiaoBuL/OmniCLIP}上获取。

6.ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers

标题:ARPA：利用大型语言模型和转换器推进视觉词义消歧的新型混合模型

author:Aristi Papastavrou, Maria Lymperaiou, Giorgos Stamou

date Time:2024-08-12

paper pdf:http://arxiv.org/pdf/2408.06040v1

摘要：
在快速发展的自然语言处理和计算机视觉领域，视觉词义消歧（VWSD）是一项关键而又充满挑战的任务。现在比以往任何时候都更迫切需要能够无缝集成和解释多模态数据的模型。试想一下，一个系统既能以人类认知的深度和细微差别理解语言，同时又能解释周围世界丰富的视觉环境。我们介绍的 ARPA 是一种将大型语言模型无与伦比的语境理解能力与转换器的高级特征提取能力相融合的架构，转换器通过定制的图神经网络 (GNN) 层来学习数据中错综复杂的关系和微妙的细微差别。这一创新架构不仅为视觉词义消歧树立了新的标杆，而且还引入了一个多功能框架，通过利用其各组成部分的协同优势来改变语言和视觉数据的交互方式，从而确保即使在最复杂的消歧场景中也能保持稳定的性能。通过一系列实验和比较分析，我们揭示了我们的模型的实质性优势，强调了其重新定义该领域标准的潜力。除了架构上的优势外，我们的架构还通过包括复杂的数据增强和多模式训练技术在内的丰富实验而表现出色。 ARPA 的问世标志着视觉词语消歧领域的一个重要里程碑，它提供了一个引人注目的解决方案，在语言和视觉模式之间架起了一座桥梁。我们邀请研究人员和从业人员探索我们模型的功能，展望未来，这种混合模型将推动人工智能取得前所未有的进步。

7.Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization

标题:用于弱监督时态动作定位的概率视觉语言表征

author:Geuntaek Lim, Hyunwoo Kim, Joonsoo Kim, Yukyung Choi

publish:Accepted to ACM MM 2024

date Time:2024-08-12

paper pdf:http://arxiv.org/pdf/2408.05955v1

摘要：
弱监督时间动作定位（WTAL）旨在仅使用视频级注释来检测未剪辑视频中的动作实例。由于许多现有研究都是基于动作分类标签来优化 WTAL 模型，因此会遇到任务差异问题（即通过分类来定位）。为了解决这个问题，最近的研究尝试通过视觉语言预训练（VLP）利用动作类别名称作为辅助语义知识。然而，现有研究仍有不足之处。以前的方法主要侧重于利用语言模型中的文本信息，但忽略了动态人类动作与 VLP 知识在联合空间中的一致性。此外，以往研究中采用的确定性表示法难以捕捉细粒度的人体动作。为了解决这些问题，我们提出了一个新颖的框架，将人类动作知识和 VLP 知识整合到概率嵌入空间中。此外，我们还提出了分布内和分布间对比学习，以增强基于统计相似性的概率嵌入空间。广泛的实验和消融研究表明，我们的方法明显优于以往所有最先进的方法。代码见 https://github.com/sejong-rcv/PVLR。

8.Robust Domain Generalization for Multi-modal Object Recognition

标题:多模态物体识别的稳健领域泛化

author:Yuxin Qiao, Keqin Li, Junhong Lin, Rong Wei, Chufeng Jiang, Yang Luo, Haoyu Yang

publish:6 pages, 2 figures. This is a preprint version of the article. The
final version will be published in the proceedings of the IEEE conference

date Time:2024-08-11

paper pdf:http://arxiv.org/pdf/2408.05831v1

摘要：
在多标签分类中，机器学习在处理与训练数据分布不同的任务时，会遇到领域泛化的挑战。现有的方法主要侧重于视觉对象识别，而忽略了自然语言的整合。最近在视觉语言预训练方面取得的进展利用了大量视觉语言对的监督，实现了跨不同领域的学习，提高了多模态场景下的识别能力。然而，这些方法在损失函数的利用、跨骨干的通用性和类感知视觉融合等方面存在局限性。本文通过推断实际损失、将评估范围扩大到更大的视觉语言骨干，以及引入 Mixup-CLIPood 来解决这些局限性，Mixup-CLIPood 包含一种新颖的混合损失，用于增强类感知视觉融合。我们的方法在多个数据集的领域泛化方面表现出色。

9.Efficient and Versatile Robust Fine-Tuning of Zero-shot Models

标题:对零点模型进行高效、多用途的稳健微调

author:Sungyeon Kim, Boseung Jeong, Donghyun Kim, Suha Kwak

publish:Accepted to ECCV 2024

date Time:2024-08-11

paper pdf:http://arxiv.org/pdf/2408.05749v1

摘要：
大规模图像文本预训练模型可实现零镜头分类，并在各种数据分布中提供一致的准确性。然而，在下游任务中优化这些模型通常需要微调，这就降低了对分布外（OOD）数据的泛化能力，并需要大量的计算资源。我们引入了鲁棒适配器（R-Adapter），这是一种新颖的方法，可在解决这两个问题的同时，对下游任务的零点模型进行微调。我们的方法将轻量级模块集成到预训练模型中，并采用新颖的自组装技术来提高 OOD 的鲁棒性，并大幅降低存储费用。此外，我们还提出了专为视觉语言下游任务微调而设计的 MPM-NCE loss。它确保了多图像-文本对的精确配准和判别特征学习。通过将鲁棒性微调基准从分类扩展到跨模态检索和开放词汇分割等多种任务，我们证明了 R-Adapter 的广泛适用性。我们的大量实验证明，R-Adapter 在各种任务中均达到了最先进的性能，只需调整 CLIP 编码器 13% 的参数。

10.Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval

标题:基于对比遮蔽自动编码器的自监督哈希算法，用于二维图像和三维点云跨模态检索

author:Rukai Wei, Heng Cui, Yu Liu, Yufeng Hou, Yanzhao Xie, Ke Zhou

publish:Accepted by ICME 2024

date Time:2024-08-11

paper pdf:http://arxiv.org/pdf/2408.05711v1

摘要：
在二维图像和三维点云数据之间实现跨模态散列是现实世界检索系统中日益关注的问题。简单地将现有的跨模态方法应用于这项新任务，无法充分捕捉潜在的多模态语义，也无法有效弥合 2D 和 3D 之间的模态差距。为了在不依赖手工制作标签的情况下解决这些问题，我们提出了基于对比度掩蔽自动编码器的自监督哈希算法（CMAH），用于图像和点云数据之间的检索。我们首先对 2D-3D 对进行对比，并将它们明确限制在联合汉明空间中。这种对比学习过程可确保生成的哈希代码具有稳健的可辨别性，并有效缩小模态差距。此外，我们还利用多模态自动编码器来增强模型对多模态语义的理解。通过完成遮蔽图像/点云数据建模任务，鼓励模型捕捉更多局部线索。此外，所提出的多模态融合块还能促进不同模态之间的细粒度交互。在三个公共数据集上进行的广泛实验表明，所提出的 CMAH 明显优于所有基线方法。

11.Disentangled Noisy Correspondence Learning

标题:离散噪声对应学习

author:Zhuohang Dang, Minnan Luo, Jihong Wang, Chengyou Jia, Haochen Han, Herun Wan, Guang Dai, Xiaojun Chang, Jingdong Wang

date Time:2024-08-10

paper pdf:http://arxiv.org/pdf/2408.05503v1

摘要：
跨模态检索对于理解跨模态的潜在对应关系至关重要。然而，现有方法隐含地假设了匹配良好的训练数据，这是不现实的，因为真实世界的数据不可避免地涉及不完美的排列，即有噪声的对应。虽然有些研究探索了基于相似性的策略来解决此类噪声问题，但它们受到模式专属信息（MEI）的影响，例如图像中的背景噪声和文本中的抽象定义，从而导致了次优的相似性预测。出现这一问题的原因是，MEI 并非跨模态共享，因此在训练中对齐 MEI 会明显误导相似性预测。此外，直接应用以前的跨模态解缠方法虽然直观，但噪声容忍度和解缠效果有限。受信息瓶颈对噪声的鲁棒性的启发，我们引入了 DisNCL–一种用于噪声对应学习中特征解缠的新型信息论框架，以自适应地平衡 MII 和 MEI 的提取，并获得可认证的最佳跨模态解缠效果。然后，DisNCL 增强了模态不变子空间中的相似性预测，从而大大提高了基于相似性的噪声对应关系缓解策略。此外，DisNCL 还引入了软匹配目标，以模拟多模态输入中固有的多对多的噪声关系，从而实现稳健、准确的跨模态配准。广泛的实验证实了 DisNCL 的功效，平均召回率提高了 2%。互信息估计和可视化结果表明，DisNCL 学习到了有意义的 MII/MEI 子空间，验证了我们的理论分析。

12.Multi-agent Planning using Visual Language Models

标题:利用视觉语言模型进行多机器人规划

author:Michele Brienza, Francesco Argenziano, Vincenzo Suriani, Domenico D. Bloisi, Daniele Nardi

date Time:2024-08-10

paper pdf:http://arxiv.org/pdf/2408.05478v1

摘要：
大型语言模型（LLM）和可视语言模型（VLM）的性能不断提高，在各个领域和任务中的应用也日益广泛，因此受到越来越多的关注。然而，LLM 和 VLM 可能会产生错误的结果，尤其是在需要深入理解问题领域时。例如，当需要同时进行规划和感知时，这些模型往往会因为难以合并多模态信息而陷入困境。为解决这一问题，通常采用微调模型，并在代表环境的专门数据结构上进行训练。这种方法效果有限，因为它会使处理环境过于复杂。在本文中，我们提出了一种多智能体任务规划架构，该架构无需特定的数据结构作为输入。取而代之的是，它使用单一的环境图像，利用常识知识处理自由形式的领域。我们还引入了一种新颖的全自动评估程序 PG2S，旨在更好地评估计划的质量。我们使用广受认可的 ALFRED 数据集验证了我们的方法，并将 PG2S 与现有的 KAS 指标进行了比较，以进一步评估生成计划的质量。

13.FuXi Weather: An end-to-end machine learning weather data assimilation and forecasting system

标题:傅溪天气：端到端机器学习天气数据同化和预报系统

author:Xiuyu Sun, Xiaohui Zhong, Xiaoze Xu, Yuanqing Huang, Hao Li, Jie Feng, Wei Han, Libo Wu, Yuan Qi

publish:34 pages, 4 figures

date Time:2024-08-10

paper pdf:http://arxiv.org/pdf/2408.05472v1

摘要：
业务数值天气预报系统由三个基本部分组成：用于收集数据的全球观测系统、用于生成初始条件的数据同化以及用于预测未来天气状况的预报模式。过去几十年来，随着预报技能的逐步提高，数值天气预报经历了一场静悄悄的革命，但由于面临计算成本高、同化越来越多的观测数据和管理更精细的空间网格的复杂性等挑战，其发展速度有所放缓。机器学习的进步为实现更高效、更准确的天气预报提供了另一条途径。基于机器学习的天气预报模型的兴起也刺激了基于机器学习的数据分析模型甚至纯粹基于机器学习的天气预报系统的发展。本文将介绍基于机器学习的端到端天气预报系统–“傅溪天气”。FuXi Weather 采用专门的数据预处理和多模态数据融合技术，在全天空条件下整合来自不同来源的信息，包括来自 3 颗极轨卫星的微波探测仪和来自全球导航卫星系统的无线电掩星数据。傅溪天气预报系统以 6 小时为一个数据分析和预报周期，以 0.25 文本度的空间分辨率独立生成稳健、准确的 10 天全球天气预报。在可预测性方面，它超越了欧洲中期天气预报中心的高分辨率预报，将500 hPa位势高度等几个关键天气变量的熟练预报准备时间从9.25天延长到9.5天。即使在观测资料有限的情况下，该系统仍具有很高的计算效率和强大的性能，这表明它有潜力成为传统 NWP 系统的替代品。