AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.20-2024.07.25

小小帅AIGC

于 2024-08-01 09:31:49 发布

阅读量469

点赞数 10

分类专栏： VLM论文时报文章标签：人工智能语言模型自然语言处理大语言模型 VLM 视觉语言模型论文推送

本文链接：https://blog.csdn.net/weixin_44362044/article/details/140750695

版权

VLM论文时报专栏收录该内容

37 篇文章 17 订阅

订阅专栏

文章目录～

1.LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model
2.High Efficiency Image Compression for Large Visual-Language Models
3.Q-Ground: Image Quality Grounding with Large Multi-modality Models
4.Selective Vision-Language Subspace Projection for Few-shot CLIP
5.MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
6.HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification
7.AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection
8.CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning
9.Concept-Based Interpretable Reinforcement Learning with Limited to No Human Labels
10.In-Context Learning Improves Compositional Understanding of Vision-Language Models
11.MIBench: Evaluating Multimodal Large Language Models over Multiple Images
12.Rethinking Domain Adaptation and Generalization in the Era of CLIP
13.Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification
14.Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models
15.PASSION: Towards Effective Incomplete Multi-Modal Medical Image Segmentation with Imbalanced Missing Rates
16.DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control
17.Multimodal Misinformation Detection using Large Vision-Language Models
18.Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images
19.EVLM: An Efficient Vision-Language Model for Visual Understanding
20.Class-Incremental Learning with CLIP: Adaptive Representation Adjustment and Parameter Fusion
21.Rethinking Visual Content Refinement in Low-Shot CLIP Adaptation

1.LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model

标题:LPGen：通过扩散模型增强高保真风景画生成能力

author:Wanggong Yang, Xiaona Wang, Yingrui Qiu, Yifei Zhao

date Time:2024-07-24

paper pdf:http://arxiv.org/pdf/2407.17229v2

摘要：
山水画的创作拓展了艺术创造力和想象力的可能性。传统的山水画方法是在宣纸上使用水墨或彩墨，这需要大量的时间和精力。这些方法容易出现错误和不一致性，并且缺乏对线条和色彩的精确控制。本文介绍了用于生成山水画的高保真、可控模型 LPGen，并引入了一个新颖的多模式框架，将图像提示集成到扩散模型中。我们通过计算目标景观图像中的可视边缘来提取其边缘和轮廓。这些信息与自然语言文本提示和绘画风格参考一起，作为条件输入到潜在扩散模型中。我们实施了一种解耦交叉注意策略，以确保图像和文本提示之间的兼容性，从而促进多模态图像生成。解码器生成最终图像。定量和定性分析表明，我们的方法在风景画生成方面优于现有方法，并超越了当前最先进的水平。LPGen 网络能有效控制山水画的构图和色彩，生成更精确的图像，并支持基于深度学习的山水画生成方面的进一步研究。

2.High Efficiency Image Compression for Large Visual-Language Models

标题:大型视觉语言模型的高效图像压缩

author:Binzhe Li, Shurun Wang, Shiqi Wang, Yan Ye

date Time:2024-07-24

paper pdf:http://arxiv.org/pdf/2407.17060v1

摘要：
近年来，大型视觉语言模型（LVLM）在多模态任务中表现出令人印象深刻的性能和良好的泛化能力，从而在各种应用场景中取代人类成为视觉信息的接收者。在本文中，我们率先提出了一种由预编辑模块和端到端编解码器组成的可变比特率图像压缩框架，以针对不同的 LVLMs 实现可喜的速率-精度性能。特别是，我们没有针对特定任务或几个代表性任务优化自适应预编辑网络，而是针对 LVLM 提出了一种新的优化策略，该策略是基于标记级失真和等级的表示和辨别能力而设计的。预编辑模块和可变比特率端到端图像编解码器由基于大型模型语义标记的损失共同训练，从而增强了对各种数据和任务的泛化能力。{实验结果表明，与最先进的编码标准多功能视频编码相比，所提出的框架能有效地实现更好的速率-准确率性能。｝同时，多模态任务实验揭示了所提框架的鲁棒性和泛化能力。

3.Q-Ground: Image Quality Grounding with Large Multi-modality Models

标题:Q-Ground：利用大型多模态模型实现图像质量接地

author:Chaofeng Chen, Sensen Yang, Haoning Wu, Liang Liao, Zicheng Zhang, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin

publish:ACM Multimedia 2024 (Oral)

date Time:2024-07-24

paper pdf:http://arxiv.org/pdf/2407.17035v1

摘要：
大型多模态模型（LMM）的最新进展大大提高了图像质量评估（IQA）方法评估和解释视觉内容质量的能力。然而，这些进步主要集中在整体质量评估方面，而对全面视觉理解至关重要的局部质量的详细检查在很大程度上仍未得到探索。在这项工作中，我们介绍了 Q-Ground，这是第一个旨在通过将大型多模态模型与详细的视觉质量分析相结合来解决精细视觉质量基础问题的框架。我们的核心贡献是引入了 QGround-100K 数据集，这是一个包含 100K 个三元组（图像、质量文本、畸变分割）的新颖资源，可促进对视觉质量的深入研究。该数据集由两部分组成：一部分是人工标注的注释，用于准确的质量评估；另一部分是由 GPT4V 等 LMM 自动标注的注释，有助于提高模型训练的鲁棒性，同时降低数据收集的成本。通过 QGround-100K 数据集，我们提出了一种基于 LMM 的方法，该方法配备了多尺度特征学习功能，可学习能够根据文本提示进行图像质量回答和畸变分割的模型。这种具有双重能力的方法不仅能完善模型对区域感知图像质量的理解，还能使其对基于文本的复杂图像质量和特定失真查询做出交互式响应。Q-Ground 向更精细的视觉质量分析迈出了一步，为该领域的未来研究树立了新的标杆。代码和数据集可从 https://github.com/Q-Future/Q-Ground 获取。

4.Selective Vision-Language Subspace Projection for Few-shot CLIP

标题:选择性视觉语言子空间投影，实现少镜头 CLIP

author:Xingyu Zhu, Beier Zhu, Yi Tan, Shuo Wang, Yanbin Hao, Hanwang Zhang

publish:Accepted to ACM MultiMedia 2024

date Time:2024-07-24

paper pdf:http://arxiv.org/pdf/2407.16977v1

摘要：
视觉语言模型（如 CLIP）能够将不同的模态数据映射到统一的特征空间中，通过测量给定图像和文本的相似性实现零/少量推理。然而，大多数现有方法都忽略了 CLIP 编码特征中的模态差距，表现为文本和图像特征相距甚远，导致分类性能有限。为了解决这个问题，我们引入了一种名为 “选择性视觉语言子空间投影”（Selective Vision-Language Subspace Projection，SSP）的方法。具体来说，我们的 SSP 框架包括两个并行模块：视觉投影器和语言投影器。这两个投影器都利用本地图像特征来跨越图像和文本各自的子空间，从而将图像和文本特征投射到各自的子空间中以实现配准。此外，我们的方法只需进行免训练矩阵计算，可无缝集成到基于 CLIP 的高级少量学习框架中。在 11 个数据集上进行的广泛实验证明，SSP 具有卓越的文本-图像配准能力，优于最先进的配准方法。代码见 https://github.com/zhuhsingyuu/SSP

5.MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

标题:微表情：利用视频对话中的微表情动态进行时敏多模态情感识别

author:Liyun Zhang

date Time:2024-07-23

paper pdf:http://arxiv.org/pdf/2407.16552v2

摘要：
多模态大语言模型（MLLMs）已显示出卓越的多模态情感识别能力，可整合视频中的视觉、声学和语言上下文的多模态线索来识别人类的情感状态。然而，现有方法忽略了捕捉微表情的局部面部时态特征，也没有利用视频中语篇感知时态片段的上下文依赖关系，因此在一定程度上限制了其预期效果。在这项工作中，我们提出了 MicroEmo，这是一种对时间敏感的 MLLM，旨在引导人们关注局部面部微表情动态和语篇感知视频片段的上下文依赖关系。我们的模型包含两个关键的架构贡献：（1）全局-本地注意力视觉编码器，它将全局帧级时间戳绑定图像特征与微表情时间动态的本地面部特征整合在一起；（2）语篇感知视频 Q-Former，它通过为每个语篇片段和整个视频生成视觉标记序列，然后将它们组合在一起，从而捕捉多尺度和上下文依赖关系。初步定性实验表明，在一项新的可解释多模态情绪识别（EMER）任务中，MicroEmo 与最新方法相比显示出了其有效性，该任务利用多模态和多方面线索，以开放词汇（OV）的方式预测情绪。

6.HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification

标题:HSVLT：用于多标签图像分类的分层尺度感知视觉语言转换器

author:Shuyi Ouyang, Hongyi Wang, Ziwei Niu, Zhenjia Bai, Shiao Xie, Yingying Xu, Ruofeng Tong, Yen-Wei Chen, Lanfen Lin

publish:10 pages, 6 figures

date Time:2024-07-23

paper pdf:http://arxiv.org/pdf/2407.16244v1

摘要：
多标签图像分类任务涉及识别单张图像中的多个对象。考虑到标签中包含的宝贵语义信息和图像中呈现的基本视觉特征，紧密的视觉语言交互在提高分类性能方面发挥着至关重要的作用。此外，考虑到单幅图像中物体大小和外观的潜在差异，关注不同尺度的特征有助于发现图像中可能存在的物体。最近，基于变换器的方法利用长距离依赖关系建模的优势，在多标签图像分类中取得了巨大成功，但这些方法也存在一些局限性。首先，现有方法将视觉特征提取和跨模态融合作为单独的步骤，导致联合语义空间中的视觉语言对齐不足。此外，这些方法只在单一尺度上提取视觉特征并进行跨模态融合，忽略了具有不同特征的物体。为了解决这些问题，我们提出了分层尺度感知视觉语言转换器（HSVLT），它有两个吸引人的设计：(1)_{分层多尺度架构，包括一个跨尺度聚合模块，利用从多个尺度提取的联合多模态特征来识别图像中不同大小和外观的物体。(2)}交互式视觉-语言注意力，这是一个新颖的注意力机制模块，它紧密结合了跨模态交互，实现了视觉、语言和多模态特征的联合更新。我们在三个基准数据集上评估了我们的方法。实验结果表明，HSVLT 以更低的计算成本超越了最先进的方法。

7.AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection

标题:AdaCLIP：利用混合可学习提示调整 CLIP，实现零点异常检测

author:Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

publish:Accepted by ECCV 2024

date Time:2024-07-22

paper pdf:http://arxiv.org/pdf/2407.15795v1

摘要：
零镜头异常检测（Zero-shot anomaly detection，ZSAD）的目标是识别任意新类别图像中的异常情况。本研究利用预先训练好的视觉语言模型（VLM）CLIP，为 ZSAD 任务引入了 AdaCLIP。AdaCLIP 将可学习提示纳入 CLIP，并通过在辅助注释异常检测数据上的训练对其进行优化。我们提出了两种类型的可学习提示：静态和动态。静态提示在所有图像中共享，用于初步调整 CLIP 以适应 ZSAD。相比之下，动态提示是为每个测试图像生成的，为 CLIP 提供了动态适应能力。静态提示和动态提示的组合被称为混合提示，可提高 ZSAD 性能。在工业和医疗领域的 14 个实际异常检测数据集上进行的广泛实验表明，AdaCLIP 的性能优于其他 ZSAD 方法，并能更好地泛化到不同类别甚至不同领域。最后，我们的分析强调了多样化辅助数据和优化提示对增强泛化能力的重要性。代码见 https://github.com/caoyunkang/AdaCLIP。

8.CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning

标题:带有生成性潜在重放的 CLIP：增量学习的强大基线

author:Emanuele Frascaroli, Aniello Panariello, Pietro Buzzega, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara

publish:15 pages, 1 figure. Accepted at the The 35th British Machine Vision
Conference 2024 (BMVC 2024), Glasgow, UK

date Time:2024-07-22

paper pdf:http://arxiv.org/pdf/2407.15793v1

摘要：
随着变压器和视觉语言模型（VLM）（如 CLIP）的出现，大型预训练模型已成为持续学习场景中提高性能的常用策略。因此，人们开发了许多提示策略，以有效地微调基于变压器的模型，避免陷入灾难性遗忘。然而，这些方法都很难在明显偏离预训练的领域中对模型进行专业化，并保留其零点能力。在这项工作中，我们提出了增量提示学习的连续生成训练，这是一种在调整 VLM 的同时减轻遗忘的新方法，它利用生成重放使提示与任务保持一致。我们还引入了一种新的指标，用于评估 CL 基准中的零镜头能力。通过在不同领域的广泛实验，我们证明了我们的框架在适应新任务的同时提高零镜头能力方面的有效性。进一步的分析表明，我们的方法可以缩小与联合提示调整之间的差距。代码库见 https://github.com/aimagelab/mammoth。

9.Concept-Based Interpretable Reinforcement Learning with Limited to No Human Labels

标题:基于概念的可解释强化学习，只需有限的人工标签，甚至无需人工标签

author:Zhuorui Ye, Stephanie Milani, Geoffrey J. Gordon, Fei Fang

publish:23 pages, 6 figures, 9 tables

date Time:2024-07-22

paper pdf:http://arxiv.org/pdf/2407.15786v1

摘要：
强化学习（RL）的最新进展主要是利用基于神经网络的决策策略，但这些模型往往缺乏可解释性，给利益相关者的理解和信任带来挑战。概念瓶颈模型通过将人类可理解的概念整合到神经网络中，提供了一种可解释的替代方案。然而，先前工作的一个重大局限是假设在训练过程中可以随时获得人类对这些概念的注释，这就要求人类注释者提供持续的实时输入。为了克服这一局限性，我们引入了一种新颖的训练方案，该方案使 RL 算法只需查询人类标注的一小部分数据集，或者在极端情况下不需要任何人类标注，就能高效地学习基于概念的策略。我们的算法 LICORICE 有三大贡献：交织概念学习和 RL 训练，使用概念集合主动选择信息数据点进行标注，以及使用简单策略装饰概念数据。我们展示了在三种环境中，LICORICE 如何将人工标注工作减少到 500 个或更少的概念标签。最后，我们介绍了一项初步研究，以探索如何利用强大的视觉语言模型，以最小的性能代价从原始视觉输入中推断概念，而无需明确的标签。

10.In-Context Learning Improves Compositional Understanding of Vision-Language Models

标题:情境学习提高视觉语言模型的合成理解能力

author:Matteo Nulli, Anesa Ibrahimi, Avik Pal, Hoshe Lee, Ivona Najdenkoska

date Time:2024-07-22

paper pdf:http://arxiv.org/pdf/2407.15487v1

摘要：
视觉语言模型（VLM）已在大量下游任务中显示出非凡的能力。然而，由于训练数据中存在对象偏差，合成图像理解仍然是一项相当困难的任务。在这项工作中，我们通过对 VLM 的构图理解能力进行广泛的基准测试，研究了造成这种能力不足的原因。我们将对比模型与生成模型进行了比较，并分析了它们在架构、预训练数据、训练任务和损失方面的差异。此外，我们还利用 “上下文学习”（In-Context Learning，简称 ICL）来提高 VLM 对图像进行更复杂推理和理解的能力。大量实验证明，我们提出的方法在多个合成理解数据集上的表现优于基准模型。

11.MIBench: Evaluating Multimodal Large Language Models over Multiple Images

标题:MIBench：评估多图像上的多模态大型语言模型

author:Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu

publish:10 pages, 4 figures

date Time:2024-07-21

paper pdf:http://arxiv.org/pdf/2407.15272v1

摘要：
基于大型语言模型（LLMs）的强大功能，许多多模态大型语言模型（MLLMs）最近在多个基准测试的各种视觉语言任务中取得了不俗的表现。然而，大多数现有的 MLLM 和基准测试主要集中在单图像输入场景，对 MLLM 在处理现实多图像时的性能仍未进行充分探索。虽然有少数基准考虑了多幅图像，但其评估维度和样本非常有限。因此，我们在本文中提出了一种新的基准 MIBench，以全面评估 MLLM 在多图像场景中的细粒度能力。具体来说，MIBench 将多图像能力分为三种场景：多图像教学（MII）、多模态知识搜索（MKS）和多模态情境学习（MIC），并构建了 13 个任务，共 13K 个注释样本。在数据构建过程中，对于 MII 和 MKS，我们从手动注释中提取正确选项，并创建具有挑战性的干扰项，从而获得多项选择题。对于 MIC，为了进行深入评估，我们设置了四个子任务，并将原始数据集转换为上下文学习格式。我们在提议的 MIBench 上评估了几种开源 MLLM 和近源 MLLM。结果表明，尽管当前的模型在单图像任务中表现出色，但在面对多图像输入时却表现出明显的不足，例如细粒度感知混乱、多图像推理能力有限以及上下文学习不稳定。MIBench 中的注释数据可在 https://huggingface.co/datasets/StarBottle/MIBench 上获取。

12.Rethinking Domain Adaptation and Generalization in the Era of CLIP

标题:重新思考 CLIP 时代的领域适应性和通用性

author:Ruoyu Feng, Tao Yu, Xin Jin, Xiaoyuan Yu, Lei Xiao, Zhibo Chen

date Time:2024-07-21

paper pdf:http://arxiv.org/pdf/2407.15173v1

摘要：
在最近关于领域适应的研究中，人们非常重视从源领域向目标领域学习共享知识。最近，大型视觉语言预训练模型（即 CLIP）在零镜头识别方面表现出了很强的能力，而有效的参数调整可以进一步提高其在特定任务中的表现。这项工作证明，简单的领域先验可以提高 CLIP 在特定领域的零镜头识别能力。此外，由于 CLIP 具有多样化的预训练数据集，因此其适应性对源领域数据的依赖较小。此外，我们还利用 CLIP 创建了零镜头自适应和基于伪标记的自训练基准。最后但并非最不重要的一点是，我们建议提高 CLIP 在多个无标记领域的任务泛化能力，这是更实用、更独特的应用场景。我们相信，我们的发现将促使人们重新思考领域适应基准以及相关算法在 CLIP 时代的作用。

13.Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification

标题:提炼视觉语言基础模型：通过及时多样化的无数据方法

author:Yunyi Xuan, Weijie Chen, Shicai Yang, Di Xie, Luojun Lin, Yueting Zhuang

publish:Accepted by ACMMM 2023

date Time:2024-07-21

paper pdf:http://arxiv.org/pdf/2407.15155v1

摘要：
无数据知识蒸馏（DFKD）在创建紧凑的学生模型方面显示出巨大的潜力，同时通过合成代用数据减轻了对真实训练数据的依赖。然而，先验艺术很少在分布转移下进行讨论，这在实际应用中可能很脆弱。最近的视觉语言基础模型（如 CLIP）在零镜头分布外泛化方面表现出色，但却消耗了大量计算资源。在本文中，我们将讨论在无法访问十亿级别图像-文本数据集的情况下，如何将 DFKD 扩展到视觉-语言基础模型。我们的目标是为具有给定类别概念的分布无关下游任务定制一个学生模型，并从预先训练的基础模型中继承分布外泛化能力。为了避免泛化能力下降，这项任务的主要挑战在于在文本提示的驱动下合成多样化的代用图像。由于文本提示中不仅编码了类别概念，还编码了风格信息，因此我们提出了三种新颖的提示多样化方法，即混合提示、随机提示和对比提示，以鼓励合成具有不同风格的图像。在非分布式泛化数据集上的实验证明了所提方法的有效性，其中对比提示法表现最佳。

14.Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models

标题:Sim-CLIP：针对稳健且语义丰富的视觉语言模型的无监督连体逆向微调技术

author:Md Zarif Hossain, Ahmed Imteaj

date Time:2024-07-20

paper pdf:http://arxiv.org/pdf/2407.14971v1

摘要：
视觉语言模型（VLM）近年来取得了长足的进步，尤其是在多模态任务中，但它们的视觉组件仍然容易受到对抗性攻击。为了解决这个问题，我们提出了一种无监督对抗微调方法–Sim-CLIP，它能增强广泛使用的 CLIP 视觉编码器对此类攻击的鲁棒性，同时保持语义的丰富性和特异性。通过采用具有余弦相似性损失的连体结构，Sim-CLIP 可以学习具有语义意义和抗攻击性的视觉表征，而不需要大型批量或动量编码器。我们的研究结果表明，使用 Sim-CLIP 的微调 CLIP 编码器增强的 VLM 对对抗性攻击的鲁棒性显著增强，同时保留了扰动图像的语义。值得注意的是，Sim-CLIP 不需要对 VLM 本身进行额外的训练或微调；用我们的微调 Sim-CLIP 取代原始视觉编码器就足以提供鲁棒性。这项工作强调了加强 CLIP 等基础模型对保障下游 VLM 应用可靠性的重要意义，从而为更安全、更有效的多模态系统铺平了道路。

15.PASSION: Towards Effective Incomplete Multi-Modal Medical Image Segmentation with Imbalanced Missing Rates

标题:PASSION：利用不平衡缺失率实现有效的不完整多模态医学图像分割

author:Junjie Shi, Caozhi Shang, Zhaobin Sun, Li Yu, Xin Yang, Zengqiang Yan

publish:Accepted by ACM MM 2024

date Time:2024-07-20

paper pdf:http://arxiv.org/pdf/2407.14796v1

摘要：
不完整多模态图像分割是医学成像中的一项基本任务，目的是在只有部分模态数据时提高部署效率。然而，在模型训练过程中，完整模态数据是可见的这一常见做法并不现实，因为在临床场景中，模态的缺失率可能不平衡。在本文中，我们首次提出了这种具有挑战性的设置，并针对不平衡缺失率下的不完整多模态医学图像分割提出了 “偏好感知自我分割”（PASSION）。具体来说，我们首先构建了像素和语义自抖，以平衡每种模式的优化目标。然后，我们定义相对偏好，以评估每种模态在训练过程中的主导地位，并在此基础上设计任务正则化和梯度正则化，以平衡不同模态的收敛速度。在两个公开的多模态数据集上的实验结果表明，PASSION 比现有的模态平衡方法更具优势。更重要的是，经过验证，PASSION 可作为即插即用模块，在不同的骨干网上实现一致的性能提升。代码见 https://github.com/Jun-Jie-Shi/PASSION。

16.DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control

标题:DISCO：通过可变场景语义和双层控制实现嵌入式导航和交互

author:Xinyu Xu, Shengcheng Luo, Yanchao Yang, Yong-Lu Li, Cewu Lu

publish:ECCV 2024

date Time:2024-07-20

paper pdf:http://arxiv.org/pdf/2407.14758v1

摘要：
通过人类指令建立一个能熟练执行各种任务的通用智能家居辅助代理是具身人工智能研究的长期蓝图，这对任务规划、环境建模和对象交互提出了要求。在这项工作中，我们研究了嵌入式代理的原始移动操作，即如何根据指示的动名词对进行导航和交互。我们提出的 DISCO 在情境化场景建模和高效控制方面取得了非同一般的进步。特别是，DISCO 在对象和可负担性方面纳入了具有丰富语义的可变场景表征，这种表征是动态学习的，有利于导航规划。此外，我们还利用全局和局部线索，提出了从粗到细的双级动作控制，以高效完成移动操纵任务。DISCO 可轻松集成到体现任务中，如体现指令跟随。为了验证我们的方法，我们以大规模长视距视觉语言导航和交互任务的 ALFRED 基准为测试平台。在广泛的实验中，我们进行了全面的评估，并证明在未见场景中，即使没有逐步指示，DISCO 的成功率也比传统方法高出 8.6%。我们的代码已在 https://github.com/AllenXuuu/DISCO 上公开发布。

17.Multimodal Misinformation Detection using Large Vision-Language Models

标题:利用大型视觉语言模型进行多模态错误信息检测

author:Sahar Tahmasebi, Eric Müller-Budack, Ralph Ewerth

publish:Accepted for publication in: Conference on Information and Knowledge
Management (CIKM) 2024

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.14321v1

摘要：
错误信息的日益泛滥及其令人担忧的影响促使业界和学术界开发错误信息检测和事实核查的方法。最近在大型语言模型（LLMs）方面取得的进展表明，LLMs 在各种任务中都有不俗的表现，但 LLMs 是否能以及如何帮助进行误报检测，这方面的探索仍相对不足。现有的大多数先进方法要么不考虑证据，只关注与索赔相关的特征，要么假定证据已经提供。很少有方法将证据检索作为错误信息检测的一部分，而是依赖于微调模型。在本文中，我们研究了 LLMs 在零镜头环境下进行错误信息检测的潜力。我们在这一过程中加入了证据检索部分，因为从各种来源收集相关信息对于检测声明的真实性至关重要。为此，我们提出了一种利用 LLM 和大型视觉语言模型 (LVLM) 进行多模态证据检索的新型重新排序方法。检索到的证据样本（图像和文本）可作为基于 LVLM 的多模态事实验证方法（LVLM4FV）的输入。为了进行公平的评估，我们在现有的证据检索数据集中为证据样本标注了更完整的图像和文本检索证据样本集，从而解决了证据样本地面实况不完整的问题。我们在两个数据集上的实验结果表明，所提出的方法在证据检索和事实验证任务中都具有优越性，而且与有监督基线相比，跨数据集的泛化能力更强。

18.Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

标题:连续全景感知：实现遥感图像的多模式增量解读

author:Bo Yuan, Danpei Zhao, Zhuoran Liu, Wentao Li, Tian Li

publish:Accepted in ACMMM 2024

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.14242v2

摘要：
持续学习（CL）打破了单向训练的方式，使模型能够不断适应新的数据、语义和任务。然而，目前的持续学习方法主要集中在单一任务上。此外，由于缺乏旧数据，CL 模型受到灾难性遗忘和语义漂移的困扰。在本文中，我们提出了一种统一的持续学习模型 Continual Panoptic Perception (CPP)，该模型利用多任务联合学习，涵盖像素级分类、实例级分割和图像级感知，从而实现遥感图像的通用判读。具体来说，我们提出了一种协作式跨模态编码器（CCE）来提取输入图像特征，该编码器支持像素分类和字幕同步生成。为了在没有范例记忆的情况下继承旧模型的知识，我们提出了一种任务交互式知识提炼（TKD）方法，该方法利用跨模态优化和任务非对称伪标记（TPL）来减轻灾难性遗忘。此外，我们还提出了一种联合优化机制，以实现端到端的多模态全景感知。在细粒度泛光感知数据集上的实验结果验证了所提模型的有效性，同时也证明了联合优化可以提高子任务CL的效率，使泛光质量相对提高13%以上。

19.EVLM: An Efficient Vision-Language Model for Visual Understanding

标题:EVLM：用于视觉理解的高效视觉语言模型

author:Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.14177v1

摘要：
在多模态语言模型领域，大多数方法都建立在类似于 LLaVA 的架构上。这些模型使用单层 ViT 特征作为视觉提示，将其与文本标记一起直接输入语言模型。但是，在处理长序列的视觉信号或视频等输入时，语言模型的自我注意机制会导致大量的计算开销。此外，使用单层 ViT 特征使得大型语言模型难以完全感知视觉信号。本文提出了一种高效的多模态语言模型，以最大限度地降低计算成本，同时使模型尽可能全面地感知视觉信号。我们的方法主要包括(1) 采用与 Flamingo 类似的交叉关注图像-文本交互。(2) 利用分层 ViT 特征。(3) 引入专家混合（MoE）机制，以提高模型的有效性。我们的模型在公开的多模态基准测试中取得了具有竞争力的成绩，并在图像字幕和视频字幕等任务中表现出色。

20.Class-Incremental Learning with CLIP: Adaptive Representation Adjustment and Parameter Fusion

标题:利用 CLIP 进行分类增量学习：自适应表征调整和参数融合

author:Linlan Huang, Xusheng Cao, Haori Lu, Xialei Liu

publish:Accepted at ECCV 2024

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.14143v1

摘要：
类递增学习是一个极具挑战性的问题，其目标是训练一个模型，使其能够随时间推移对越来越多的类中的数据进行分类。随着视觉语言预训练模型（如 CLIP）的发展，它们展现出了良好的泛化能力，使其在参数完全冻结的情况下，在类递增学习中表现出色。然而，仅仅通过微调模型来进一步适应下游任务会导致严重的遗忘。大多数使用预训练模型的现有研究都假定，当模型获得新知识时，对旧类的遗忘是均匀的。在本文中，我们提出了一种名为自适应表征调整和参数融合（RAPF）的方法。在新数据的训练过程中，我们利用文本特征测量新类别对旧类别的影响并调整表征。训练结束后，我们采用分解参数融合法进一步减轻适配器模块微调过程中的遗忘。在几个传统基准上的实验表明，我们的方法取得了最先进的结果。我们的代码可在（url{https://github.com/linlany/RAPF}.

21.Rethinking Visual Content Refinement in Low-Shot CLIP Adaptation

标题:反思低镜头剪辑改编中的视觉内容提炼

author:Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.14117v1

摘要：
最近的适应方法可以有效促进知识转移，从而提高对比视觉语言预训练（CLIP）的低照度能力。然而，这些适配方法通常是在输入图像的全局视图上操作的，因此对图像局部细节的感知存在偏差。为了解决这个问题，我们提出了在测试阶段进行适配计算之前进行视觉内容细化（VCR）的方法。具体来说，我们首先将测试图像分解成不同的比例，以将特征提取器的注意力转移到图像的细节上。然后，我们在每个比例中选择预测余量最大的图像视图，以过滤掉噪声图像视图，其中预测余量是通过预训练的 CLIP 模型计算得出的。最后，我们根据比例合并上述选定图像视图的内容，构建新的鲁棒表示。因此，合并后的内容可直接用于帮助适配器关注全局和局部，而无需任何额外的训练参数。我们将我们的方法应用于 3 个流行的低镜头基准任务和 13 个数据集，结果比最先进的方法有了显著的改进。例如，在少镜头分类任务中，与基线方法（Tip-Adapter）相比，我们的方法在无需训练和需要训练的设置下都实现了约 2% 的平均改进。

小小帅AIGC

关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.20-2024.07.25

山水画的创作拓展了艺术创造力和想象力的可能性。传统的山水画方法是在宣纸上使用水墨或彩墨，这需要大量的时间和精力。这些方法容易出现错误和不一致性，并且缺乏对线条和色彩的精确控制。本文介绍了用于生成山水画的高保真、可控模型 LPGen，并引入了一个新颖的多模式框架，将图像提示集成到扩散模型中。我们通过计算目标景观图像中的可视边缘来提取其边缘和轮廓。这些信息与自然语言文本提示和绘画风格参考一起，作为条件输入到潜在扩散模型中。
复制链接

扫一扫

专栏目录