AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.08.20-2024.08.25

本文链接：https://blog.csdn.net/weixin_44362044/article/details/141753885

文章目录～

1.LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task
2.Evaluating Attribute Comprehension in Large Vision-Language Models
3.PropSAM: A Propagation-Based Model for Segmenting Any 3D Objects in Multi-Modal Medical Images
4.Hierarchical Network Fusion for Multi-Modal Electron Micrograph Representation Learning with Foundational Large Language Models
5.FungiTastic: A multi-modal dataset and benchmark for image categorization
6.AnoPLe: Few-Shot Anomaly Detection via Bi-directional Prompt Learning with Only Normal Samples
7.Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach
8.Online Zero-Shot Classification with CLIP
9.IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities
10.Semantic Alignment for Multimodal Large Language Models
11.VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models
12.Building and better understanding vision-language models: insights and future directions
13.Adapt CLIP as Aggregation Instructor for Image Dehazing
14.RoVRM: A Robust Visual Reward Model Optimized via Auxiliary Textual Preference Data
15.SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs
16.EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model
17.DH-Bench: Probing Depth and Height Perception of Large Visual-Language Models
18.MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning
19.Enabling Small Models for Zero-Shot Classification through Model Label Learning
20.UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation
21.Making Large Vision Language Models to be Good Few-shot Learners
22.Towards Analyzing and Mitigating Sycophancy in Large Vision-Language Models

1.LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task

标题:LowCLIP：针对多模态图像检索任务中的低资源语言调整 CLIP 模型架构

author:Ali Asgarov, Samir Rustamov

date Time:2024-08-25

paper pdf:http://arxiv.org/pdf/2408.13909v1

摘要：
这项研究探索开发用于低资源语言（特别是阿塞拜疆语）图像检索的多模态视觉语言模型。现有的视觉语言模型主要支持高资源语言，对其进行微调仍然需要大量计算。为了应对低资源语言视觉语言检索的挑战，我们整合了 CLIP 模型架构，并采用了多种技术来平衡计算效率和性能。这些技术包括通过机器翻译生成合成数据、图像增强，以及使用特定领域的数据进一步训练基于转换器的模型的注意机制。我们将多语言 BERT 作为文本编码器与 ResNet50、EfficientNet0、Vision Transformer (ViT) 和 Tiny Swin Transformer 等图像编码器集成在一起。我们的研究发现，EfficientNet0 和 Tiny Swin Transformer 等模型在 COCO、Flickr30k 和 Flickr8k 等数据集上的表现最佳。增强技术将 EfficientNet0 在 Flickr30k 上的 MAP 从 0.84 提高到 0.87，将 ResNet50 在 MSCOCO 上的 MAP 从 0.70 提高到 0.80，为视觉语言检索领域的新技术水平做出了贡献。我们分享我们的配置和结果，以支持进一步的研究。代码和预训练模型可从 https://github.com/aliasgerovs/azclip 获取。

2.Evaluating Attribute Comprehension in Large Vision-Language Models

标题:评估大型视觉语言模型的属性理解能力

author:Haiwen Zhang, Zixi Yang, Yuanzhi Liu, Xinran Wang, Zheqi He, Kongming Liang, Zhanyu Ma

publish:15 pages, 4 figures

date Time:2024-08-25

paper pdf:http://arxiv.org/pdf/2408.13898v1

摘要：
目前，大型视觉语言模型在许多下游任务中取得了可喜的进展。然而，它们在细粒度视觉理解任务（如物体属性理解）中仍面临许多挑战。此外，人们对大型视觉语言模型的评估也越来越多，但缺乏对属性理解和视觉语言微调过程的深入研究。本文拟从属性识别和属性层次理解两个角度评估大型视觉语言模型的属性理解能力。我们评估了三种视觉语言交互，包括视觉问题解答、图像-文本匹配和图像-文本余弦相似度。此外，我们还探索了微调过程中影响属性理解的因素。通过一系列定量和定性实验，我们得出了三个主要结论：（1）大型视觉语言模型具有良好的属性识别能力，但其分层理解能力相对有限。(2) 与 ITC 相比，ITM 在捕捉更精细的细节方面表现出更强的能力，因此更适用于属性理解任务。(3) 用于微调的字幕中的属性信息在属性理解中起着至关重要的作用。我们希望这项工作有助于指导未来在大型视觉语言模型的精细视觉理解方面取得进展。

3.PropSAM: A Propagation-Based Model for Segmenting Any 3D Objects in Multi-Modal Medical Images

标题:PropSAM：基于传播的多模态医学图像中任何三维物体的分割模型

author:Zifan Chen, Xinyu Nan, Jiazheng Li, Jie Zhao, Haifeng Li, Zilin Lin, Haoshen Li, Heyun Chen, Yiting Liu, Bin Dong, Li Zhang, Lei Tang

publish:26 figures, 6 figures

date Time:2024-08-25

paper pdf:http://arxiv.org/pdf/2408.13836v1

摘要：
容积分割对医学成像至关重要，但往往受到劳动密集型手动注释和特定场景模型训练需求的限制。此外，现有的通用分割模型因其设计和推论方法而效率低下。针对这一临床需求，我们推出了 PropSAM，这是一种基于传播的分割模型，可优化三维医学结构信息的使用。PropSAM 集成了用于片内处理的基于 CNN 的 UNet 和用于片间传播的基于 Transformer 的模块，重点关注结构和语义的连续性，以增强各种模式的分割效果。与众不同的是，PropSAM 采用单视角提示，如二维边界框或草图遮罩，而不像传统模型需要双视角提示。它表现出卓越的性能，在 44 个医疗数据集和各种成像模式中显著提高了骰子相似系数（DSC），超过了 MedSAM 和 SegVol 等模型，平均 DSC 提高了 18.1%。尽管存在提示偏差和不同的传播配置，PropSAM 仍能保持稳定的预测结果，单向方差分析测试证实了这一点，P>0.5985 和 P>0.6131。此外，PropSAM 的高效架构使推理速度更快（Wilcoxon 秩和检验，P<0.001），与双视角提示模型相比，用户交互时间减少了 37.8%。PropSAM 能够处理不规则和复杂的对象，而且性能稳定，这进一步证明了它在临床环境中的潜力，有助于进行更自动化、更可靠的医学影像分析，而且只需最少的再培训。

4.Hierarchical Network Fusion for Multi-Modal Electron Micrograph Representation Learning with Foundational Large Language Models

标题:利用基础大语言模型进行多模态电子显微图像表征学习的分层网络融合

author:Sakhinana Sagar Srinivas, Geethan Sannidhi, Venkataramana Runkana

publish:Our paper is published at the workshop on Robustness of Few-shot and
Zero-shot Learning in Foundation Models at NeurIPS 2023

date Time:2024-08-24

paper pdf:http://arxiv.org/pdf/2408.13661v1

摘要：
在半导体和量子材料等领域，利用电子显微照片对材料进行表征是一项至关重要的任务。显微照片复杂的层次结构往往给传统的分类方法带来挑战。在本研究中，我们提出了一种用于分析电子显微图像的创新骨干架构。我们将显微照片标记化为补丁序列，并将其表示为视觉图（通常称为补丁归因图），从而创建了显微照片的多模式表示。我们引入了分层网络融合（HNF），这是一种多层网络结构架构，可促进多模态表征之间的信息交换以及不同补丁分辨率之间的知识整合。此外，我们还利用大型语言模型（LLM）生成纳米材料的详细技术描述，作为辅助信息协助下游任务。我们利用跨模态注意机制进行跨领域表征（基于图像和语言的见解）的知识融合，从而预测纳米材料的类别。这种多方面的方法可以更全面、更准确地表示和分类纳米材料的显微照片。我们的框架优于传统方法，克服了分布偏移带来的挑战，促进了高通量筛选。

5.FungiTastic: A multi-modal dataset and benchmark for image categorization

标题:FungiTastic：多模态数据集和图像分类基准

author:Lukas Picek, Klara Janouskova, Milan Sulc, Jiri Matas

date Time:2024-08-24

paper pdf:http://arxiv.org/pdf/2408.13632v1

摘要：
我们引入了一个全新的、极具挑战性的基准和数据集–FungiTastic，该数据集基于二十年间持续收集的数据。该数据集源自专家标注和整理的真菌记录。该数据集包含约 35 万个多模态观测数据，其中包括 5 千个细粒度类别的 65 万多张照片和各种附带信息，如采集元数据、卫星图像和身体部位分割。FungiTastic 是唯一一个包含测试集的基准，测试集部分采用 DNA 序列，具有前所未有的标签可靠性。该基准旨在支持 (i) 标准封闭集分类、(ii) 开放集分类、(iii) 多模态分类、(iv) 少量学习、(v) 领域转移等。我们为几乎所有的用例提供量身定制的基准方法。我们在 HuggingFace 上提供了大量随时可用的预训练模型和模型训练框架。描述数据集特征和基线的综合文档可在 https://bohemianvra.github.io/FungiTastic/ 和 https://www.kaggle.com/datasets/picekl/fungitastic 上获取。

6.AnoPLe: Few-Shot Anomaly Detection via Bi-directional Prompt Learning with Only Normal Samples

标题:AnoPLe：通过仅使用正常样本的双向提示学习进行少量异常检测

author:Yujin Lee, Seoyoon Jang, Hyunsoo Yoon

publish:Code is available at https://github.com/YoojLee/AnoPLe

date Time:2024-08-24

paper pdf:http://arxiv.org/pdf/2408.13516v1

摘要：
由于训练样本的可用性有限，而且经常缺少异常样本，因此少拍异常检测（FAD）面临着巨大的挑战。以前的方法通常依靠注释或真实异常样本来提高检测效率，但这种文本或视觉线索并不总能获得。为了解决这个问题，我们引入了 AnoPLe，这是一种多模态提示学习方法，设计用于在事先不了解异常情况的情况下进行异常检测。AnoPLe 模拟异常情况，并采用文本和视觉提示的双向耦合，以促进两种模式之间的深度交互。此外，我们还将轻量级解码器与可学习的多视角信号相结合，并在多尺度图像上进行训练，以增强局部语义理解能力。为了进一步提高性能，我们调整了全局和局部语义，丰富了图像层面对异常的理解。实验结果表明，AnoPLe 实现了强大的 FAD 性能，在 MVTec-AD 和 VisA 上分别记录了 94.1% 和 86.2% 的图像 AUROC，与 SoTA 相比仅有约 1% 的差距，尽管没有接触到真正的异常点。代码见 https://github.com/YoojLee/AnoPLe。

7.Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach

标题:探索视觉语言预训练模型的鲁棒性：多模态对抗攻击方法

author:Jiwei Guan, Tianyu Ding, Longbing Cao, Lei Pan, Chen Wang, Xi Zheng

date Time:2024-08-24

paper pdf:http://arxiv.org/pdf/2408.13461v1

摘要：
使用转换器进行视觉语言预训练（VLP）在众多多模态任务中表现出了卓越的性能。然而，这些模型的对抗鲁棒性尚未得到深入研究。现有的多模态攻击方法在很大程度上忽视了视觉模态和文本模态之间的跨模态交互，尤其是在交叉注意机制的背景下。在本文中，我们研究了最近的 VLP 变换器的对抗脆弱性，并设计了一种新颖的联合多模态变换器特征攻击（JMTFA），在白盒设置下同时在视觉和文本模态中引入对抗性扰动。JMTFA 以注意力相关性分数为战略目标，破坏每种模态中的重要特征，通过融合扰动产生对抗样本，从而导致错误的模型预测。实验结果表明，与现有基线相比，所提出的方法在视觉语言理解和推理下游任务中实现了较高的攻击成功率。值得注意的是，我们的研究结果表明，文本模式极大地影响了 VLP 转换器中复杂的融合过程。此外，我们观察到，在我们提出的攻击下，模型大小与对抗鲁棒性之间没有明显的关系。这些见解强调了对抗鲁棒性的一个新维度，并强调了可靠部署多模态人工智能系统的潜在风险。

8.Online Zero-Shot Classification with CLIP

标题:利用 CLIP 进行在线零点分类

author:Qi Qian, Juhua Hu

publish:accepted by ECCV’24

date Time:2024-08-23

paper pdf:http://arxiv.org/pdf/2408.13320v1

摘要：
视觉语言预训练（如 CLIP）可实现零镜头传输，根据候选类别名称对图像进行分类。虽然 CLIP 在各种下游任务中都表现出了令人印象深刻的零镜头性能，但目标数据的分布却没有得到充分的利用。在这项工作中，我们研究了一种新颖的在线零镜头传输方案，在这种方案中，每张图像以随机顺序到达进行分类，并且只访问一次，无需存储其表示即可立即获得预测结果。与传统的零点分类相比，所提出的框架既保留了在线服务的灵活性，又将到达图像的统计信息作为侧信息来捕捉目标数据的分布，有助于提高实际应用的性能。为了应对有效在线优化的挑战，我们首先开发了在线标签学习来为目标数据分布建模。然后，利用所提出的在线代理学习方法进一步优化视觉空间中每个类别的代理，以缩小图像和文本之间的模态差距。这两种在线策略的收敛性都能从理论上得到保证。通过结合在线标签学习和代理学习的预测标签，我们的在线零镜头转移方法（OnZeta）在ImageNet上实现了78.94%$的准确率，而无需访问整个数据集。此外，在使用不同视觉编码器的其他13个下游任务上进行的大量实验表明，平均提高幅度超过3美元，这证明了我们建议的有效性。代码见 \url{https://github.com/idstcv/OnZeta}。

9.IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities

标题:IAA：内部适配器架构赋予冰冻大型语言模型多模态能力

author:Bin Wang, Chunyu Xie, Dawei Leng, Yuhui Yin

date Time:2024-08-23

paper pdf:http://arxiv.org/pdf/2408.12902v1

摘要：
在多模态大型语言模型（MLLMs）领域，常用的方法通常包括在训练过程中解冻语言模型，以促进深刻的视觉理解。然而，利用视觉语言数据对这些模型进行微调往往会导致其自然语言处理（NLP）能力下降。为了避免这种性能下降，一个直接的解决方案是在开发多模态能力的同时冻结语言模型。遗憾的是，以往的研究并未取得令人满意的成果。在冻结语言模型策略的基础上，我们进行了深入的结构探索，并引入了内适配器架构（Inner-Adaptor Architecture，IAA）。具体来说，该架构在大型语言模型的不同深度集成了多个多模态适配器，以方便与固有的面向文本的转换层直接交互，从而使冻结的语言模型获得多模态能力。与以往需要大规模对齐数据的冻结语言模型方法不同，我们提出的架构能够在小规模数据集上实现卓越的性能。我们进行了大量实验，以提高 MLLM 的一般多模态能力和视觉基础能力。在各种视觉语言基准测试中，我们的方法明显优于之前最先进的方法，同时不影响 NLP 任务的性能。代码和模型请访问 https://github.com/360CVGroup/Inner-Adaptor-Architecture。

10.Semantic Alignment for Multimodal Large Language Models

标题:多模态大型语言模型的语义对齐

author:Tao Wu, Mengze Li, Jingyuan Chen, Wei Ji, Wang Lin, Jinyang Gao, Kun Kuang, Zhou Zhao, Fei Wu

publish:Accepted by MM 2024

date Time:2024-08-23

paper pdf:http://arxiv.org/pdf/2408.12867v1

摘要：
针对多图像跨模态教学的多模态大语言模型（MLLMs）研究受到越来越多的关注，并取得了重大进展，尤其是在涉及近似图像的场景中（如更改字幕）。现有的 MLLM 通常采用两步流程：首先，为每张输入图像独立提取视觉标记，然后将这些来自不同图像的视觉标记与大语言模型（LLM）的文本特征空间对齐。然而，为每幅图像独立提取视觉标记可能会导致不同图像的不同语义在第一步中被优先处理，从而导致在随后的 LLM 分析中无法保留图像之间的链接信息。在图像之间存在显著差异（如视觉故事）的情况下，这个问题会变得更加严重。为了应对这一挑战，我们引入了多模态大型语言模型语义对齐（SAM）。通过在视觉标记提取过程中涉及不同图像之间的双向语义引导，SAM 的目的是在将不同图像输入 LLM 之前，为连贯分析加强链接信息的保存并对齐不同图像的语义。作为测试平台，我们提出了一个名为 MmLINK 的大规模数据集，其中包含 69K 个样本。与大多数现有的用于微调 MLLM 的数据集不同，我们的 MmLINK 数据集包含多模态指令和大量不同的图像。在分组字幕任务和讲故事任务上的广泛实验证明了我们的 SAM 模型的有效性，大大超过了最先进的方法（在 CIDEr 分数上，分组字幕 +37% ，讲故事 +22%）。项目页面：https://mccartney01.github.io/SAM。

11.VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models

标题:VALE：使用易懂人工智能和语言模型的图像分类器多模态视觉和语言解释框架

author:Purushothaman Natarajan, Athira Nambiar

publish:15 pages, 10 tables, 3 figures

date Time:2024-08-23

paper pdf:http://arxiv.org/pdf/2408.12808v1

摘要：
深度神经网络（DNN）通过实现任务自动化和减少人为错误，给各个领域带来了革命性的变化。然而，由于其黑箱性质，其内部运作和决策过程仍然模糊不清。因此，缺乏可解释性限制了这些模型在高风险场景中的应用。为解决这一问题，新兴的可解释人工智能（XAI）领域旨在解释和诠释 DNN 的内部工作原理。尽管取得了进步，但 XAI 仍面临一些挑战，如机器与人类理解之间的语义鸿沟、可解释性与性能之间的权衡以及对特定上下文解释的需求。为了克服这些限制，我们提出了一个名为 VALE 视觉和语言解释的新型多模态框架。VALE 将可解释的人工智能技术与先进的语言模型相结合，以提供全面的解释。该框架利用来自 XAI 工具的视觉解释、先进的零镜头图像分割模型和视觉语言模型生成相应的文本解释。通过将视觉解释与文本解释相结合，VALE 弥补了机器输出与人类解释之间的语义鸿沟，为用户提供了更易于理解的结果。在本文中，我们针对图像分类任务对 VALE 框架进行了试点研究。具体来说，我们使用 Shapley Additive Explanations (SHAP) 来识别分类图像中最有影响力的区域。然后使用 “任意分段模型”（SAM）提取感兴趣的对象，并使用最先进的预训练视觉语言模型（VLM）生成解释。在两个数据集上进行了广泛的实验研究：ImageNet 数据集和自定义水下 SONAR 图像数据集，证明了 VALE 在水下图像分类中的实际应用性。

12.Building and better understanding vision-language models: insights and future directions

标题:建立并更好地理解视觉语言模型：见解与未来方向

author:Hugo Laurençon, Andrés Marafioti, Victor Sanh, Léo Tronchon

date Time:2024-08-22

paper pdf:http://arxiv.org/pdf/2408.12637v1

摘要：
以图像和文本为输入和输出文本的视觉语言模型（VLMs）领域发展迅速，目前尚未就开发管道的几个关键方面达成共识，包括数据、架构和训练方法。本文可视为构建 VLM 的教程。我们首先全面概述了当前最先进的方法，强调了每种方法的优缺点，探讨了该领域的主要挑战，并为尚未充分开发的领域提出了有前景的研究方向。然后，我们将介绍构建 Idefics3-8B 的实际步骤，Idefics3-8B 是一款功能强大的 VLM，其性能大大优于其前身 Idefics2-8B，同时还能在开放数据集上进行高效训练，并使用简单直接的管道。这些步骤包括创建 Docmatix，这是一个用于提高文档理解能力的数据集，比以前可用的数据集大 240 倍。我们发布了该模型以及为训练该模型而创建的数据集。

13.Adapt CLIP as Aggregation Instructor for Image Dehazing

标题:调整 CLIP 作为图像去斑的聚合指导器

author:Xiaozhe Zhang, Fengying Xie, Haidong Ding, Linpeng Pan, Zhenwei Shi

publish:12 pages, 6 figures

date Time:2024-08-22

paper pdf:http://arxiv.org/pdf/2408.12317v1

摘要：
大多数去毛刺方法都存在感受野有限的问题，无法探索视觉语言模型所包含的丰富先验语义，而这些先验语义在下游任务中已被证明是有效的。在本文中，我们介绍了 CLIPHaze，这是一个开创性的混合框架，它将 Mamba 的高效全局建模与 CLIP 的先验知识和零镜头功能相结合，同时解决了这两个问题。具体来说，我们的方法采用并行状态空间模型和基于窗口的自我关注，分别获得全局上下文依赖性和局部细粒度感知。为了无缝聚合来自这两条路径的信息，我们引入了由 CLIP 指导的聚合模块（CAM）。对于非均质和均质雾霾，CAM 利用零镜头估算的雾霾密度图和无降级信息的高质量图像嵌入，显式和隐式地确定每个像素的最佳神经操作范围，从而自适应地融合两种具有不同感受野的路径。在各种基准上进行的广泛实验表明，CLIPHaze 实现了最先进的性能（SOTA），尤其是在非均质雾霾中。代码将在验收后公开。

14.RoVRM: A Robust Visual Reward Model Optimized via Auxiliary Textual Preference Data

标题:RoVRM：通过辅助文本偏好数据优化的稳健视觉奖赏模型

author:Chenglong Wang, Yang Gan, Yifu Huo, Yongyu Mu, Murun Yang, Qiaozhi He, Tong Xiao, Chunliang Zhang, Tongran Liu, Quan Du, Di Yang, Jingbo Zhu

date Time:2024-08-22

paper pdf:http://arxiv.org/pdf/2408.12109v1

摘要：
大型视觉语言模型（LVLM）经常无法与人类偏好保持一致，从而导致一些问题，例如在没有适当视觉背景的情况下生成误导性内容（也称为幻觉）。解决这一问题的一个可行方法是使用人类偏好对齐技术，如最佳采样和强化学习。然而，这些技术面临着视觉偏好数据稀缺所带来的困难，而视觉偏好数据是训练视觉奖赏模型（VRM）所必需的。在这项工作中，我们将继续这方面的研究。我们提出了一种鲁棒视觉奖励模型（RoVRM），它可以改进 LVLM 的人类偏好对齐。RoVRM 通过三阶段渐进式训练和基于传输的最优偏好数据选择，利用辅助文本偏好数据，有效缓解了视觉偏好数据稀缺的问题。我们在基于 LLaVA-1.5-7B 和 -13B 模型的常用视觉语言任务中对 RoVRM 进行了实验。实验结果表明，RoVRM 的性能始终优于传统的 VRM。此外，与直接偏好优化等基于排序的配准技术相比，我们的三阶段渐进式训练和偏好数据选择方法能带来持续的性能提升。

15.SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

标题:SEA：用于 MLLM 中标记词级视觉-文本整合的监督嵌入式对齐方法

author:Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang

date Time:2024-08-21

paper pdf:http://arxiv.org/pdf/2408.11813v1

摘要：
多模态大型语言模型（MLLMs）最近展示了非凡的感知和推理能力，通常由视觉编码器、适配器和大型语言模型（LLM）组成。适配器是视觉和语言组件之间的关键桥梁。然而，使用图像级监督来训练适配器往往会导致严重的不对齐，从而削弱 LLM 的能力，限制多模态 LLM 的潜力。为了解决这个问题，我们引入了监督嵌入对齐（SEA），这是一种标记级对齐方法，它利用视觉语言预训练模型（如 CLIP），通过对比学习将视觉标记与 LLM 的嵌入空间对齐。这种方法能确保视觉和语言表征更加连贯地融合在一起，提高多模态 LLM 的性能和可解释性，同时保留其固有功能。广泛的实验表明，SEA 能有效改善多模态 LLM，尤其是对于较小的模型，而无需增加额外的数据或推理计算。SEA 还为开发更通用、适应性更强的解决方案以增强多模态系统奠定了基础。

16.EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model

标题:EE-MLLM：数据高效、计算高效的多模态大语言模型

author:Feipeng Ma, Yizhou Zhou, Hebei Li, Zilong He, Siying Wu, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun

date Time:2024-08-21

paper pdf:http://arxiv.org/pdf/2408.11795v1

摘要：
在多模态研究领域，许多研究利用大量图像-文本对进行模态对齐学习，将大型语言模型（LLM）转化为多模态 LLM，并在各种视觉语言任务中表现出色。目前流行的方法主要分为两类：基于自我注意力的方法和基于交叉注意力的方法。虽然基于自我注意的方法因其简单的 MLP 架构而具有较高的数据效率，但由于要将视觉和文本标记串联起来作为 LLM 的输入，它们的计算效率往往较低。相反，基于交叉注意力的方法虽然由于需要额外的可学习参数而降低了数据效率，但由于避免了长序列输入的 LLM，因此表现出更高的计算效率。为了解决这些权衡问题，我们引入了数据效率和计算效率高的多模态大语言模型（EE-MLLM）。在不引入额外模块或可学习参数的情况下，EE-MLLM 实现了数据效率和计算效率的双丰收。具体来说，我们将 MLLM 中原有的自我注意机制修改为复合注意机制。这种机制有两个主要特点：1) 消除视觉标记内自我注意的计算开销，以实现计算效率；以及 2) 重用 LLM 各层的权重，以促进视觉和语言之间有效的模态对齐，从而实现数据效率。实验结果证明了 EE-MLLM 在一系列基准测试中的有效性，包括 MMBench 和 SeedBench 等通用数据集，以及 TextVQA 和 DocVQA 等细粒度任务。

17.DH-Bench: Probing Depth and Height Perception of Large Visual-Language Models

标题:DH-Bench：探索大型视觉语言模型的深度和高度感知

author:Shehreen Azad, Yash Jain, Rishit Garg, Yogesh S Rawat, Vibhav Vineet

date Time:2024-08-21

paper pdf:http://arxiv.org/pdf/2408.11748v2

摘要：
几何理解对于导航和与环境互动至关重要。虽然大型视觉语言模型（VLM）展示了令人印象深刻的能力，但要在现实世界的场景中部署这些模型，就必须在视觉感知方面具备相当的几何理解能力。在这项工作中，我们将重点放在这些模型的几何理解上，特别是针对场景中物体的深度和高度。我们的观察结果表明，尽管 VLM 在形状和大小等基本几何属性感知方面表现出色，但它们在推理物体的深度和高度时却遇到了巨大挑战。为了解决这个问题，我们引入了一套基准数据集，包括合成 2D、合成 3D 和真实世界场景，以对这些方面进行严格评估。我们使用这些数据集对 17 种最先进的 VLM 进行了基准测试，结果发现它们在深度和高度感知方面始终存在问题。我们的主要见解包括详细分析 VLM 在深度和高度推理能力方面的缺陷以及这些模型中存在的固有偏差。这项研究旨在为开发具有更强几何理解能力的 VLM 铺平道路，这对现实世界的应用至关重要。我们的基准的代码和数据集将在（url{https://github.com/sacrcv/DH-Bench}.

18.MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning

标题:MSCPT：利用多尺度和以上下文为重点的提示调整功能进行少镜头全切片图像分类

author:Minghao Han, Linhao Qu, Dingkang Yang, Xukun Zhang, Xiaoying Wang, Lihua Zhang

publish:11 pages, 5 figures, 5tables

date Time:2024-08-21

paper pdf:http://arxiv.org/pdf/2408.11505v1

摘要：
多实例学习（MIL）已成为对整张幻灯片图像（WSI）进行弱监督分类的标准范式。然而，这种模式依赖于使用大量标记过的 WSI 进行训练。训练数据的缺乏和罕见疾病的存在给这些方法带来了巨大挑战。提示调整与预训练的视觉语言模型（VLM）相结合，是解决弱监督 WSI 分类（FSWC）任务的有效方法。然而，将针对自然图像设计的提示调整方法应用于 WSI 会面临三个重大挑战：1) 这些方法未能充分利用 VLM 文本模式的先验知识；2) 它们忽略了 WSI 中重要的多尺度和上下文信息，导致结果不理想；以及 3) 它们缺乏对实例聚合方法的探索。为了解决这些问题，我们提出了一种针对 FSWC 任务的多尺度和以上下文为重点的提示调整（MSCPT）方法。具体来说，MSCPT 利用冻结的大型语言模型生成多尺度的病态视觉语言先验知识，从而指导分层提示调整。此外，我们还设计了一个图提示调整模块来学习 WSI 中的基本语境信息，最后还引入了一个非参数交叉引导的实例聚合模块来获取 WSI 层面的特征。基于两个 VLM，在三个数据集上进行的大量实验和可视化展示了我们的 MSCPT 的强大性能。

19.Enabling Small Models for Zero-Shot Classification through Model Label Learning

标题:通过模型标签学习为零镜头分类建立小型模型

author:Jia Zhang, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li

date Time:2024-08-21

paper pdf:http://arxiv.org/pdf/2408.11449v1

摘要：
像 CLIP 这样的视觉语言模型（VLM）在图像分类任务中通过对齐文本和图像表现出了令人印象深刻的 "零误差 "能力，但与特定任务的专家模型相比，其性能却逊色不少。相反，专家模型在其专业领域表现出色，但在新任务中却缺乏零误差能力。如何同时获得专家模型的高性能和零误差能力是一个重要的研究方向。在本文中，我们试图证明，通过构建一个模型中心，并使用模型标签将模型与其功能对齐，就能在中心中有效地选择和重用模型，从而以零投篮的方式解决新任务。我们引入了一种新的范式–模型标签学习（MLL），它通过语义有向无环图（SDAG）在模型及其功能之间架起了桥梁，并利用分类头组合优化（CHCO）算法为新任务选择合适的模型。与基础模型范式相比，它的成本更低，可扩展性更强，也就是说，零镜头能力会随着模型中心的大小而增长。在七个真实数据集上进行的实验验证了 MLL 的有效性和效率，证明专家模型可以有效地重复用于零点任务。我们的代码将公开发布。

20.UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation

标题:UniFashion：用于多模态时尚检索和生成的统一视觉语言模型

author:Xiangyu Zhao, Yuehan Zhang, Wenlong Zhang, Xiao-Ming Wu

date Time:2024-08-21

paper pdf:http://arxiv.org/pdf/2408.11305v1

摘要：
时尚领域包含各种真实世界的多模态任务，包括多模态检索和多模态生成。人工智能生成内容的技术突飞猛进，特别是用于文本生成的大型语言模型和用于视觉生成的扩散模型等技术，引发了将这些多模态模型应用于时尚领域的广泛研究兴趣。然而，从这个角度来看，由于多模态时尚领域的多样性，涉及嵌入的任务，如图像到文本或文本到图像的检索，在很大程度上被忽视了。而目前关于多任务单一模型的研究也缺乏对图像生成的关注。在这项工作中，我们提出了 UniFashion，这是一个统一的框架，可同时应对时尚领域中多模态生成和检索任务的挑战，将图像生成与检索任务和文本生成任务整合在一起。UniFashion 整合了扩散模型和 LLM，从而统一了嵌入和生成任务，实现了可控的高保真生成。在不同的时尚任务中，我们的模型明显优于以前的单任务先进模型，并可随时调整以管理复杂的视觉语言任务。这项工作展示了多模态生成和检索之间潜在的学习协同作用，为时尚领域的未来研究提供了一个前景广阔的方向。源代码见 https://github.com/xiangyu-mm/UniFashion。

21.Making Large Vision Language Models to be Good Few-shot Learners

标题:制作大型视觉语言模型，使其成为优秀的快速学习者

author:Fan Liu, Wenwen Cai, Jian Huo, Chuanyi Zhang, Delong Chen, Jun Zhou

date Time:2024-08-21

paper pdf:http://arxiv.org/pdf/2408.11297v1

摘要：
少量分类（FSC）是计算机视觉领域一项基本但极具挑战性的任务，它涉及从有限的数据中识别新的类别。以往的方法侧重于增强视觉特征或结合额外的模式，而大型视觉语言模型（LVLMs）凭借其丰富的知识和强大的视觉感知能力，提供了一种很有前景的替代方法。然而，LVLMs 有可能学习特定的响应格式，而不是有效地从 FSC 任务的支持数据中提取有用信息。在本文中，我们研究了 LVLMs 在 FSC 中的表现，并发现了一些关键问题，如学习不足和存在严重的位置偏差。为了应对上述挑战，我们采用了元学习策略，让模型 “学会学习”。通过为指令微调构建丰富的元任务集，LVLM 增强了从少量支持数据中提取分类信息的能力。此外，我们还在微调和推理阶段分别通过标签增强和候选选择进一步提高了 LVLM 的少量学习能力。标签增强是通过字符扰动策略实现的，以确保模型专注于支持信息。候选者选择利用属性描述过滤掉不可靠的候选者，简化任务。大量实验证明，我们的方法在一般数据集和细粒度数据集上都取得了优异的性能。此外，我们的候选者选择策略已被证明有利于免训练 LVLM。

22.Towards Analyzing and Mitigating Sycophancy in Large Vision-Language Models

标题:分析和减少大型视觉语言模型中的佞人现象

author:Yunpu Zhao, Rui Zhang, Junbin Xiao, Changxin Ke, Ruibo Hou, Yifan Hao, Qi Guo, Yunji Chen

date Time:2024-08-21

paper pdf:http://arxiv.org/pdf/2408.11261v1

摘要：
大型视觉语言模型（LVLM）在视觉语言理解方面表现出了巨大的能力。然而，这些模型中一直存在的一个关键问题是 “谄媚”。"谄媚 "是指模型受到诱导性或欺骗性提示的不当影响，从而导致有偏差的输出和幻觉。尽管 LVLMs 取得了进展，但对评估和减轻 "谄媚 "现象的研究还远远不够。在这项工作中，我们系统分析了各种 VL 基准上的佞人行为，并提出了一种文本对比解码方法来缓解佞人行为，从而填补了这一空白。虽然不同模型的具体佞人行为差异很大，但我们的分析揭示了所有 LVLM 在各种任务中抵御佞人行为方面的严重不足。为了改善这一问题，我们提出了领先查询对比解码（Leading Query Contrastive Decoding，LQCD），这是一种与模型无关的方法，重点在于通过在解码阶段识别和抑制佞言标记的概率来校准 LVLM 对领先线索的过度依赖。大量实验表明，LQCD 能有效缓解佞词，其性能优于提示工程方法和常见的幻觉缓解方法。我们进一步证明，LQCD 不但没有损害，甚至还略微改善了 LVLM 对中性查询的响应，这表明它是一种更有效的通用解码策略，而不仅限于佞词。