AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.08.05-2024.08.10

最新推荐文章于 2024-09-16 13:46:43 发布

小小帅AIGC

最新推荐文章于 2024-09-16 13:46:43 发布

阅读量851

点赞数 17

分类专栏： VLM论文时报文章标签：人工智能语言模型 LLM VLM 视觉语言模型大模型

本文链接：https://blog.csdn.net/weixin_44362044/article/details/141174634

版权

VLM论文时报专栏收录该内容

43 篇文章 22 订阅

订阅专栏

文章目录～

1.VITA: Towards Open-Source Interactive Omni Multimodal LLM
2.Instruction Tuning-free Visual Token Complement for Multimodal LLMs
3.Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model
4.mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
5.FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers
6.UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling
7.ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling
8.How Well Can Vision Language Models See Image Details?
9.Target Prompting for Information Extraction with Vision Language Model
10.Empirical Analysis of Large Vision-Language Models against Goal Hijacking via Visual Prompt Injection
11.CLIP-based Point Cloud Classification via Point Cloud to Image Translation
12.Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation
13.MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation
14.Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization
15.Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD)

1.VITA: Towards Open-Source Interactive Omni Multimodal LLM

标题:VITA：迈向开源交互式全方位多模态 LLM

author:Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun

publish:Project Page: https://vita-home.github.io

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.05211v1

摘要：
GPT-4o 卓越的多模态能力和交互体验突出表明了其在实际应用中的必要性，然而开源模型却很少在这两个领域都有出色表现。在本文中，我们将介绍 VITA，它是有史以来第一个开源的多模态大语言模型（MLLM），善于同时处理和分析视频、图像、文本和音频模式，同时具有先进的多模态交互体验。从 Mixtral 8x7B 作为语言基础开始，我们扩充了它的中文词汇量，然后进行了双语教学调整。通过多模态对齐和指令调整的两阶段多任务学习，我们进一步赋予语言模型视觉和音频功能。在一系列单模态和多模态基准测试中，VITA 都表现出了强大的多语言、视觉和音频理解能力。除了基础能力，我们在增强自然多模态人机交互体验方面也取得了长足的进步。据我们所知，我们是第一个在 MLLM 中利用非唤醒交互和音频中断的人。VITA 是开源社区探索多模态理解与交互无缝整合的第一步。虽然 VITA 要接近近源对应程序还有很多工作要做，但我们希望它作为先驱的作用能成为后续研究的基石。项目页面：https://vita-home.github.io。

2.Instruction Tuning-free Visual Token Complement for Multimodal LLMs

标题:多模态词法的无指令调谐视觉标记补全

author:Dongsheng Wang, Jiequan Cui, Miaoge Li, Wang Lin, Bo Chen, Hanwang Zhang

publish:Accepted by ECCV2024 (20pages)

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.05019v1

摘要：
随着大型语言模型（LLM）开放社区的成熟，多模态语言模型（MLLM）有望在视觉和语言之间架起一座优雅的桥梁。然而，目前的研究受到了一些固有挑战的限制，例如需要高质量的指令对，以及在图像到文本的训练目标中损失视觉信息。为此，我们提出了一个视觉令牌补充框架（VTC），帮助 MLLM 恢复缺失的视觉特征，从而提高反应的准确性。具体来说，我们的 VTC 整合了文本到图像的生成，作为识别与文本无关特征的指南，然后开发一个视觉选择器来生成补充视觉标记，以丰富原始视觉输入。此外，还进一步设计了一种迭代策略，通过迭代使用视觉选择器来提取更多视觉信息，而无需任何额外的训练。值得注意的是，训练管道不需要额外的图像-文本对，从而实现了所需的无指令调整特性。定性和定量实验都证明了我们的 VTC 的优越性和高效性。

3.Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model

标题:利用预训练的视觉语言模型避免开放式主动学习中的注释成本浪费

author:Jaehyuk Heo, Pilsung Kang

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.04917v1

摘要：
主动学习（AL）旨在通过有选择地收集高信息量数据来提高模型性能，从而最大限度地降低标注成本。然而，在实际场景中，未标注数据可能包含分布外样本（OOD），如果数据选择错误，就会导致标注成本的浪费。最近的研究探索了将 AL 应用于开放集数据的方法，但这些方法往往需要或产生不可避免的成本损失，以尽量减少成本。为了应对这些挑战，我们提出了一种新颖的选择策略，即 CLIPN for AL (CLIPNAL)，它可以在不需要 OOD 样本的情况下最大限度地减少成本损失。CLIPNAL 依次评估数据的纯度和信息量。首先，它利用预先训练好的视觉语言模型，通过利用分布内（ID）数据的语言和视觉信息来检测和排除 OOD 数据，而无需额外的训练。其次，它从剩余的 ID 数据中选择信息量大的数据，然后由人类专家对所选样本进行注释。在各种开放集条件的数据集上的实验结果表明，CLIPNAL 在所有情况下都能实现最低的成本损失和最高的性能。代码见 https://github.com/DSBA-Lab/OpenAL。

4.mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

标题:mPLUG-Owl3：在多模态大型语言模型中实现长图像-序列理解

author:Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.04840v1

摘要：
多模态大型语言模型（MLLM）在执行各种单幅图像任务的指令方面表现出了非凡的能力。尽管取得了这一进展，但在长图像序列建模方面仍存在重大挑战。在这项工作中，我们引入了多功能多模态大型语言模型 mPLUG-Owl3，它增强了在包含检索图像文本知识、交错图像文本和冗长视频的场景中理解长图像序列的能力。具体来说，我们提出了新颖的超注意力模块，将视觉和语言有效整合到一个共同的语言引导语义空间中，从而促进对扩展的多图像场景的处理。广泛的实验结果表明，在单图像、多图像和视频基准测试中，mPLUG-Owl3 在规模相似的模型中取得了最先进的性能。此外，我们还提出了一个具有挑战性的长视觉序列评估项目，名为 “抗干扰能力”（Distractor Resistance），用于评估模型在分心情况下保持注意力的能力。最后，利用所提出的架构，mPLUG-Owl3 在超长视觉序列输入上表现出了卓越的性能。我们希望 mPLUG-Owl3 能为开发更高效、更强大的多模态大型语言模型做出贡献。

5.FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers

标题:FUSE-ing 语言模型：零镜头适配器发现，跨标记化器即时优化

author:Joshua Nathaniel Williams, J. Zico Kolter

publish:Published as a Conference Paper at COLM 2024; 10 Pages;
https://github.com/jnwilliams/FUSE_prompt_inversion.git

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.04816v1

摘要：
大型语言模型的广泛使用导致了众多标记化器和嵌入空间的出现，从而给及时发现任务中的知识转移带来了困难。在这项工作中，我们提出了 FUSE（语义嵌入的灵活统一），这是一种近似适配器层的廉价方法，可以将一个模型的文本嵌入空间映射到另一个模型的文本嵌入空间，甚至可以跨越不同的标记化器。我们引入了一种基于三阶张量的模型嵌入空间表示法，该表示法可对齐被不同标记化器分割开来的语义嵌入，并利用这种表示法推导出一种模型输出相对于另一种模型嵌入空间的梯度近似值。我们通过对视觉语言模型和因果语言模型进行多目标优化，展示了我们的方法在图像字幕和基于情感的图像字幕方面的功效。

6.UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling

标题:UniBench：视觉推理需要重新思考视觉语言，而不是一味缩放

author:Haider Al-Tahan, Quentin Garrido, Randall Balestriero, Diane Bouchacourt, Caner Hazirbas, Mark Ibrahim

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.04810v1

摘要：
为了扩展和改进视觉语言模型（VLM）训练方法，研究人员付出了巨大的努力。然而，随着基准数量的不断增加，研究人员肩负着实施每项协议的沉重负担，既要承担不小的计算成本，又要了解所有这些基准如何转化为有意义的进展轴。为了便于系统地评估 VLM 的进展，我们推出了 UniBench：50 多个 VLM 基准的统一实现，涵盖了从物体识别到空间感知、计数等一系列精心分类的能力。我们通过评估近 60 个公开可用的视觉语言模型，展示了 UniBench 在衡量进展方面的实用性。我们发现，虽然扩展训练数据或模型规模可以提高许多视觉语言模型的能力，但扩展对推理或关系的益处不大。令人惊讶的是，我们还发现当今最优秀的视觉语言模型在简单的数字识别和计数任务（如 MNIST）上表现吃力，而更简单的网络就能解决这些问题。在规模不足的情况下，我们发现更精确的干预措施（如数据质量或定制学习目标）更有前途。对于实践者，我们还提供了为特定应用选择合适的 VLM 的指导。最后，我们发布了一个易于运行的 UniBench 代码库，其中包含全套 50 多项基准测试和 59 种模型的比较，以及经过提炼的具有代表性的基准测试集，在单个 GPU 上运行只需 5 分钟。

7.ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

标题:ArtVLM：通过基于视觉的前缀语言建模进行属性识别

author:William Y. Zhu, Keren Ye, Junjie Ke, Jiahui Yu, Leonidas Guibas, Peyman Milanfar, Feng Yang

publish:Accepted at ECCV 2024

date Time:2024-08-07

paper pdf:http://arxiv.org/pdf/2408.04102v1

摘要：
从物体中识别和分离视觉属性是许多计算机视觉应用的基础。虽然像 CLIP 这样的大型视觉语言表征在很大程度上解决了零镜头物体识别的任务，但零镜头视觉属性识别仍然是一个挑战，因为 CLIP 的对比学习视觉语言表征无法有效捕捉物体与属性之间的依赖关系。在本文中，我们针对这一弱点，提出了一种基于句子生成的属性识别检索表述，其新颖之处在于：1）将待测量和检索的对象属性关系明确建模为条件概率图，从而将识别问题转换为对依赖性敏感的语言建模问题；2）在这一重构表述上应用大型预训练视觉语言模型（VLM），并自然提炼其图像-对象-属性关系知识，用于属性识别。具体来说，对于图像上需要识别的每个属性，我们都会测量生成一个简短句子的视觉条件概率，该句子编码了属性与图像上物体的关系。对比检索通过将句子中的元素与图像进行全局对齐来测量概率，而生成式检索则不同，它对句子中对象和属性的顺序和依赖性非常敏感。我们通过实验证明，在两个视觉推理数据集–“野生视觉属性”（VAW）和我们新提出的 “视觉基因组属性排名”（VGARank）–上，生成式检索始终优于对比式检索。

8.How Well Can Vision Language Models See Image Details?

标题:视觉语言模型能看清图像细节吗？

author:Chenhui Gou, Abdulwahab Felemban, Faizan Farooq Khan, Deyao Zhu, Jianfei Cai, Hamid Rezatofighi, Mohamed Elhoseiny

date Time:2024-08-07

paper pdf:http://arxiv.org/pdf/2408.03940v1

摘要：
基于大型语言模型的视觉语言模型（LLM-based VLMs）在各种视觉语言理解任务中都取得了令人瞩目的成果。然而，这些 VLM 对语义层面以外的图像细节的理解能力如何，目前仍不清楚。在我们的研究中，我们引入了像素值预测任务（PVP）来探索 “视觉语言模型能看到图像细节的程度如何？”，并帮助视觉语言模型感知更多细节。通常，这些模型由一个冻结的 CLIP 视觉编码器、一个大型语言模型和一个连接模块组成。在对 PVP 任务中的 VLM 进行微调后，我们发现1) 仅对连接模块和 LLM 进行微调，现有的 VLM 很难预测精确的像素值；2) 如果同时对视觉编码器进行调整，预测精度会显著提高。此外，我们的研究还发现，将像素值预测作为 VLM 的预训练任务之一，并对视觉编码器进行适配，可显著提高 VLM 在需要详细图像感知的下游图像语言理解任务中的性能，例如参考图像分割（平均提高了 +10.19 cIoU）和视频游戏决策（在两款游戏中的平均得分分别提高了 +80.34 和 +70.54）。

9.Target Prompting for Information Extraction with Vision Language Model

标题:利用视觉语言模型提取目标信息

author:Dipankar Medhi

publish:7 pages, 5 figures

date Time:2024-08-07

paper pdf:http://arxiv.org/pdf/2408.03834v1

摘要：
大型视觉和语言模型的最新发展趋势为信息提取系统的构建方式带来了新的变革。在理解文档和构建各行各业的问题解答系统方面，VLM 凭借其最先进的技术树立了新的标杆。它们在从文档图像生成文本和提供问题的准确答案方面有明显的优势。然而，要有效利用这些模型来构建精确的对话系统，仍然存在一些挑战。用于大型语言模型的通用提示技术往往不适合这些专门设计的视觉语言模型。这种通用输入提示所产生的输出是普通的，与文档的实际内容相比可能存在信息差距。为了获得更准确、更具体的答案，视觉语言模型需要有针对性的提示和文档图像。本文讨论了一种名为 "目标提示 "的技术，其重点是明确针对文档图像的某些部分，并仅从这些特定区域生成相关答案。本文还涉及使用不同的用户查询和输入提示对每种提示技术的响应进行评估。

10.Empirical Analysis of Large Vision-Language Models against Goal Hijacking via Visual Prompt Injection

标题:针对通过视觉提示注入劫持目标的大型视觉语言模型的实证分析

author:Subaru Kimura, Ryota Tanaka, Shumpei Miyawaki, Jun Suzuki, Keisuke Sakaguchi

publish:8 pages, 6 figures, Accepted to NAACL 2024 SRW

date Time:2024-08-07

paper pdf:http://arxiv.org/pdf/2408.03554v1

摘要：
我们探讨了视觉提示注入（VPI），它恶意利用了大型视觉语言模型（LVLM）遵循输入图像上绘制的指令的能力。我们提出了一种新的 VPI 方法，即 “通过视觉提示注入进行目标劫持”（GHVPI），它将 LVLM 的执行任务从原来的任务调换到攻击者指定的替代任务。定量分析结果表明，GPT-4V 容易受到 GHVPI 的攻击，攻击成功率高达 15.8%，存在不可忽视的安全风险。我们的分析还表明，成功的 GHVPI 要求 LVLM 具有较高的字符识别能力和指令跟踪能力。

11.CLIP-based Point Cloud Classification via Point Cloud to Image Translation

标题:通过点云到图像的转换实现基于 CLIP 的点云分类

author:Shuvozit Ghose, Manyi Li, Yiming Qian, Yang Wang

publish:Accepted by ICPR2024

date Time:2024-08-07

paper pdf:http://arxiv.org/pdf/2408.03545v1

摘要：
由于三维空间中的点云结构稀疏且无序，因此点云理解本身就是一个具有挑战性的问题。最近，基于对比视觉语言预训练（CLIP）的点云分类模型（即 PointCLIP）为点云分类研究领域增添了一个新方向。在这种方法中，首先从点云中提取多视角深度图，并通过 CLIP 视觉编码器。为了将三维知识传输到网络，需要在 CLIP 视觉编码器的基础上微调一个称为适配器的小型网络。PointCLIP 有两个局限性。首先，点云深度图缺乏图像信息，而图像信息对于分类和识别等任务至关重要。其次，适配器仅依赖于多视角特征的全局表示。受此启发，我们提出了一种预训练点云到图像转换网络（PPCITNet），它能生成广义彩色图像，并为点云深度图提供额外的突出视觉线索，从而在点云分类和理解方面取得良好的性能。此外，我们还提出了一种新颖的视点适配器，该适配器结合了每个视点处理的视点特征以及存在于多视点特征中的全局交织知识。实验结果表明，在 ModelNet10、ModelNet40 和 ScanobjectNN 数据集上，拟议模型的性能优于现有的基于 CLIP 的先进模型。

12.Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation

标题:Optimus：通过气泡开发加速大规模多模态 LLM 训练

author:Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu

date Time:2024-08-07

paper pdf:http://arxiv.org/pdf/2408.03505v1

摘要：
多模态大型语言模型（MLLMs）将大型语言模型（LLMs）的成功经验扩展到图像、文本和音频等多种数据类型，在多模态翻译、视觉问题解答和内容生成等多个领域取得了显著的性能。然而，由于异构模态模型和三维并行中的复杂数据依赖性造成了大量 GPU 气泡，现有系统在训练 MLLM 时效率低下。本文提出的 Optimus 是一种分布式 MLLM 训练系统，可缩短端到端 MLLM 训练时间。Optimus 基于我们的原理分析，即在 LLM 气泡内调度编码器计算可以减少 MLLM 训练中的气泡。为了让所有 GPU 都能调度编码器计算，Optimus 为编码器和 LLM 分别搜索并行计划，并采用气泡调度算法，以便在不破坏 MLLM 模型架构中原有数据依赖关系的情况下利用 LLM 气泡。我们进一步将编码器层计算分解为一系列内核，并分析三维并行的常见气泡模式，精心优化亚毫秒级的气泡调度，最大限度地减少了整体训练时间。我们在生产集群中进行的实验表明，与基线相比，Optimus 在 3072 个 GPU 上使用 ViT-22B 和 GPT-175B 模型将 MLLM 训练加速了 20.5%-21.3%。

13.MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation

标题:MDT-A2G：探索用于协同语音手势生成的掩蔽扩散变换器

author:Xiaofeng Mao, Zhengkai Jiang, Qilin Wang, Chencan Fu, Jiangning Zhang, Jiafu Wu, Yabiao Wang, Chengjie Wang, Wei Li, Mingmin Chi

date Time:2024-08-06

paper pdf:http://arxiv.org/pdf/2408.03312v1

摘要：
扩散变换器领域的最新进展大大改善了高质量二维图像、三维视频和三维图形的生成。然而，由于之前的方法主要采用卷积神经网络（CNN）或简单的几个变换层，因此变换器架构在协同语音手势生成领域的有效性仍相对欠缺。为了弥补这一研究空白，我们引入了一种用于共同语音手势生成的新型掩码扩散变换器（简称 MDT-A2G），该变换器直接对手势序列实施去噪处理。为了增强时间上一致的语音驱动手势的上下文推理能力，我们采用了一种新型掩码扩散变换器。该模型采用了专门设计的掩码建模方案，以加强序列手势之间的时间关系学习，从而加快学习过程，实现连贯、逼真的动作。除音频外，我们的 MDT-A2G 模型还整合了多模态信息，包括文本、情感和身份。此外，我们还提出了一种高效的推理策略，通过利用以前的计算结果来减少去噪计算量，从而在性能下降几乎可以忽略不计的情况下提高速度。实验结果表明，MDT-A2G 在手势生成方面表现出色，其学习速度比传统扩散变换器快 6 倍以上，推理速度比标准扩散模型快 5.7 倍。

14.Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization

标题:利用实体信息进行跨模态关联学习：实体引导的多模态总结

author:Yanghai Zhang, Ye Liu, Shiwei Wu, Kai Zhang, Xukai Liu, Qi Liu, Enhong Chen

publish:In ACL-Findings 2024

date Time:2024-08-06

paper pdf:http://arxiv.org/pdf/2408.03149v1

摘要：
多媒体数据的快速增长推动了多模态输出的多模态摘要（MSMO）技术的发展，该技术旨在生成整合文本和相关图像的多模态摘要。多模态输入和输出中固有的内容异质性给 MSMO 的执行带来了巨大挑战。传统方法通常从整体角度看待粗略的图像-文本数据或单个视觉对象，忽略了对象与其所代表的实体之间的重要联系。为了整合细粒度的实体知识，我们提出了一种实体引导的多模态摘要模型（EGMS）。我们的模型以 BART 为基础，利用具有共享权重的双多模态编码器来同时处理文本-图像和实体-图像信息。然后，一个门控机制将视觉数据结合起来，以生成增强的文本摘要，同时通过预先训练的视觉语言模型中的知识提炼来完善图像选择。在公共 MSMO 数据集上进行的大量实验验证了 EGMS 方法的优越性，同时也证明了将实体信息纳入 MSMO 问题的必要性。

15.Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD)

标题:通过语言对比解码（LCD）减轻大型视觉语言模型（LVLM）中的幻听现象

author:Avshalom Manevich, Reut Tsarfaty

date Time:2024-08-06

paper pdf:http://arxiv.org/pdf/2408.04664v1

摘要：
大型视觉语言模型（LVLMs）是大型语言模型（LLMs）的延伸，可同时处理图像和文本输入，扩展了人工智能的能力。然而，由于 LVLM 依赖于文本线索和学习到的对象共现偏差，因此在处理对象幻觉时会遇到困难。虽然大多数研究对这些幻觉进行了量化，但仍缺乏缓解策略。我们的研究引入了一种语言对比解码（LCD）算法，该算法可根据 LLM 分布置信度调整 LVLM 输出，从而有效减少对象幻觉。我们展示了 LCD 在 LVLM 中的领先优势，在 COCO 验证集上，POPE F1 分数提高了 4%，CHAIR 分数降低了 36%，同时还提高了字幕质量分数。我们的方法无需复杂的后处理或再训练，就能有效改善 LVLM，而且很容易适用于不同的模型。我们的研究结果凸显了进一步探索 LVLM 特定解码算法的潜力。