AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.05.25-2024.05.31_multi-modal generative embedding model-CSDN博客

本文链接：https://blog.csdn.net/weixin_44362044/article/details/139469826

文章目录～

1.Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations
2.Bootstrap3D: Improving 3D Content Creation with Synthetic Data
3.Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
4.Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights
5.StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond
6.DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models
7.Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning
8.InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding
9.Information Theoretic Text-to-Image Alignment
10.Language Augmentation in CLIP for Improved Anatomy Detection on Multi-modal Medical Images
11.Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization
12.Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals
13.Enhancing Large Vision Language Models with Self-Training on Image Comprehension
14.Multi-Modal Generative Embedding Model
15.MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification
16.ChartFormer: A Large Vision Language Model for Converting Chart Images into Tactile Accessible SVGs
17.Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer
18.LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification
19.Recent Advances of Foundation Language Models-based Continual Learning: A Survey
20.Why are Visually-Grounded Language Models Bad at Image Classification?
21.Privacy-Aware Visual Language Models
22.An Introduction to Vision-Language Modeling
23.Compressed-Language Models for Understanding Compressed File Formats: a JPEG Exploration
24.Mixture of Modality Knowledge Experts for Robust Multi-modal Knowledge Graph Completion
25.CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification

1.Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations

标题:增强视觉创造力：图像编辑建议的视觉语言助手

author:Tiancheng Shen, Jun Hao Liew, Long Mai, Lu Qi, Jiashi Feng, Jiaya Jia

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2406.00121v1

摘要：
基于文本的图像生成和编辑技术的进步为内容创建带来了革命性的变化，使用户能够根据富有想象力的文本提示创建令人印象深刻的内容。然而，现有的方法在设计上无法很好地处理过于简化的提示，而在典型的应用场景中，用户在开始编辑时往往只考虑到模糊或抽象的目的。在这种情况下，用户需要精心构思，以弥合模糊的出发点与描绘预期结果所需的详细创意之间的差距。在本文中，我们介绍了图像编辑推荐（IER）任务。这项任务旨在根据输入图像和代表用户未明确编辑目的的简单提示，自动生成多样化的创意编辑指令。为此，我们引入了创意视觉语言助手（Creativity-VLA），这是一个专门为编辑指令生成而设计的多模态框架。我们在专门为 IER 设计的编辑说明数据集上训练 Creativity-VLA。我们利用新颖的 "标记-本地化 "机制进一步增强了我们的模型，使其能够同时支持全局和局部编辑操作。我们的实验结果表明，Creativity-VLA 能够有效地推荐不仅包含吸引人的创意元素，而且与输入图片和用户的初始提示保持高度相关的指令。

2.Bootstrap3D: Improving 3D Content Creation with Synthetic Data

标题:Bootstrap3D：利用合成数据改进 3D 内容创作

author:Zeyi Sun, Tong Wu, Pan Zhang, Yuhang Zang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

publish:Project Page: https://sunzey.github.io/Bootstrap3D/

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2406.00093v1

摘要：
近年来，用于 3D 内容创建的多视角扩散模型取得了显著进展。然而，与二维扩散模型相比，在图像质量和提示跟踪能力方面仍有很大差距。一个关键的瓶颈是，带有详细说明的高质量 3D 资产非常稀缺。为了应对这一挑战，我们提出了 Bootstrap3D，这是一个新颖的框架，可自动生成任意数量的多视角图像，以帮助训练多视角扩散模型。具体来说，我们引入了一个数据生成管道，该管道采用（1）二维和视频扩散模型，根据构建的文本提示生成多视角图像，以及（2）我们的微调三维感知 MV-LaVA 来过滤高质量数据和重写不准确的字幕。利用这一管道，我们生成了 100 万张高质量的合成多视角图像，并配有密集的描述性标题，以解决高质量 3D 数据短缺的问题。此外，我们还提出了一种训练时间步重排（TTR）策略，利用去噪过程学习多视角一致性，同时保持原始的二维扩散先验。广泛的实验证明，Bootstrap3D 可以生成高质量的多视角图像，具有卓越的美学质量、图像文本对齐和视角一致性。

3.Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

标题:视频-MME：视频分析中多模态 LLM 的首次综合评估基准

author:Chaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun

publish:Project Page: https://video-mme.github.io

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.21075v1

摘要：
在追求人工通用智能的过程中，多模态大型语言模型（MLLMs）已成为近期发展的一个焦点。然而，人们的主要关注点仍然是开发其在静态图像理解方面的能力。MLLMs 在处理连续视觉数据方面的潜力仍未得到充分挖掘，这凸显了其性能缺乏全面、高质量的评估。在本文中，我们介绍了 Video-MME，它是有史以来第一个在视频分析中对 MLLM 进行全频谱、多模式评估的基准。我们的工作有别于现有的基准，主要有四个特点：1) 视频类型的多样性，横跨 6 个主要视觉领域和 30 个子领域，以确保广泛的场景通用性；2) 时间维度上的持续时间，涵盖短、中、长期视频，从 11 秒到 1 小时不等，以实现稳健的上下文动态；3) 数据模式的广度，除视频帧外，还整合了字幕和音频等多模式输入，以展现 MLLM 的全方位能力；4) 注释的质量，利用专家注释者严格的人工标注，促进精确可靠的模型评估。通过反复观看所有视频内容，人工筛选出 900 个视频，共计 256 个小时，并对其进行标注，最终形成 2,700 个问答对。通过 Video-MME，我们广泛评估了各种最先进的 MLLM，包括 GPT-4 系列和 Gemini 1.5 Pro，以及 InternVL-Chat-V1.5 等开源图像模型和 LLaVA-NeXT-Video 等视频模型。我们的实验表明，Gemini 1.5 Pro 是性能最好的商业模型，其性能明显优于开源模型。我们的数据集和这些发现突出表明，在处理较长序列和多模态数据方面需要进一步改进。项目页面： https://video-mme.github.io

4.Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights

标题:超越数据失衡的推广：关于 CLIP 的对照研究，以获得可迁移的见解

author:Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.21070v1

摘要：
网络规模的视觉语言数据集自然存在严重的数据不平衡。尽管如此，我们发现与监督学习相比，CLIP 在数据不平衡的情况下表现出明显的鲁棒性，并在学习可泛化表征方面表现出显著效果。为了探究这一发现背后的原因，我们进行了对照实验来研究各种潜在因素，结果发现 CLIP 的借口任务形成了一个动态分类问题，即在训练中只有一个子类集存在。这就隔离了主要类别的偏差，并隐性地平衡了学习信号。此外，CLIP 的鲁棒性和可辨别性随着更多描述性语言监督、更大的数据规模和更广泛的开放世界概念而得到改善，而这些是监督学习所无法实现的。我们的研究不仅揭示了 CLIP 在数据不平衡之外的通用性背后的机制，还为研究界提供了可借鉴的见解。研究结果在监督学习和自我监督学习中都得到了验证，使在不平衡数据上训练的模型能在各种识别任务中取得 CLIP 级别的性能。代码见：https://github.com/CVMI-Lab/clip-beyond-tail。

5.StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond

标题:StrucTexTv3：用于富文本图像感知、理解及其他方面的高效视觉语言模型

author:Pengyuan Lyu, Yulin Li, Hao Zhou, Weihong Ma, Xingyu Wan, Qunyi Xie, Liang Wu, Chengquan Zhang, Kun Yao, Errui Ding, Jingdong Wang

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.21013v3

摘要：
富文本图像具有重要而广泛的价值，已深深融入人类生活的各个方面。值得注意的是，富文本图像中的视觉线索和语言符号在信息传递中发挥着至关重要的作用，但同时也面临着各种挑战。因此，如何高效地理解文本丰富的图像是检验视觉语言模型能力的重要试金石。我们精心设计了一个高效的视觉语言模型 StrucTexTv3，专门用于处理丰富文本图像的各种智能任务。StrucTexTv3 的重要设计体现在以下几个方面：首先，我们采用了有效的多尺度缩减视觉变换器和多粒度令牌采样器（MG-Sampler）组合作为视觉令牌生成器，成功地解决了高分辨率输入和丰富文本图像复杂表征学习的难题。其次，我们通过指令学习提高了 StrucTexTv3 的感知和理解能力，将各种面向文本的任务无缝整合到一个统一的框架中。第三，我们收集了大量高质量的富文本图像，缩写为 TIM-30M，其中包括偶发场景、办公文档、网页和截图等不同场景，从而提高了模型的鲁棒性。我们的方法在文本丰富的图像感知任务中取得了 SOTA 的成绩，在理解任务中的表现也有显著提高。在拥有约 1.8B 个参数的 LLM 解码器的多模态模型中，它处于领先地位，这也使边缘设备的部署变得可行。总之，StrucTexTv3 模型具有高效的结构设计、出色的性能和广泛的适应性，可为涉及富文本图像的各种智能应用任务提供强大的支持，因而具有广泛应用的巨大潜力。

6.DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models

标题:DeCo：多模态大语言模型中的标记压缩与语义抽象解耦

author:Linli Yao, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, Lu Hou

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20985v1

摘要：
视觉投射器是视觉和语言模式之间的桥梁，可促进跨模式对齐，是 MLLM 的重要组成部分。然而，衡量投影器在视觉语言配准中的有效性的研究仍然不足，目前只能通过 MLLM 在下游任务中的表现来推断。受这一问题的启发，本研究通过解释 MLLM 中的视觉语言语义流来研究投射器模块。具体来说，我们回溯了从生成的语言标记到原始视觉编码器补丁的语义相关性流，以及投影仪产生的中间输出。我们的研究结果表明，压缩投影仪（如 QFormer）会将视觉片段抽象为有限的语义概念，如对象或属性，从而产生 "双重抽象 "现象。这包括投影仪参照预定义的查询标记进行第一次视觉语义抽象，以及 LLM 根据文本指令进行第二次提取。双重抽象在训练中效率很低，而且会导致视觉语义累积不足。为了缓解这一问题，我们提出了 "压缩与抽象分离（DeCo）"的关键见解，即通过投影仪在补丁级压缩视觉标记数，让 LLM 完全处理视觉语义抽象。因此，我们采用了一种简单的压缩器，即二维自适应池化（2D Adaptive Pooling），以无参数的方式对视觉补丁进行下采样。经验评估表明，DeCo 在性能和效率方面都超越了传统的压缩投影器。它以更少的可训练参数和更快的收敛速度，在 MLLM Benchmarks、Visual Localization 和 Open-ended VQA 任务中分别实现了 0.9%、7.1% 和 2.9% 的性能提升。

7.Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning

标题:检索与推理的结合：高中课本知识也有益于多模态推理

author:Cheng Tan, Jingxuan Wei, Linzhuang Sun, Zhangyang Gao, Siyuan Li, Bihui Yu, Ruifeng Guo, Stan Z. Li

publish:Under review

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20834v1

摘要：
配备检索增强生成（RAG）的大型语言模型是一个新兴领域，其目的是通过利用外部知识库来增强应答能力。虽然 RAG 在纯语言模型中的应用已得到广泛探索，但其在多模态视觉语言模型中的应用仍处于起步阶段。多模态 RAG 的主要目标不仅仅是生成答案，而是培养模型对相关查询进行推理的能力。为此，我们引入了一种名为 RMR（检索与推理）的新型多模态 RAG 框架。RMR 框架采用双模检索模块来识别最相关的问答对，然后将其作为多模态推理过程的支架。这种无需训练的方法不仅能鼓励模型深入参与检索内容中固有的推理过程，还能帮助生成精确、可解释性强的答案。令人惊讶的是，仅利用从小学和高中科学课程中收集的 ScienceQA 数据集，RMR 就能显著提高各种视觉语言模型在 A-OKVQA、MMBench 和 SEED 等基准数据集上的性能。这些成果凸显了我们的多模态检索和推理机制在提高视觉语言模型推理能力方面的巨大潜力。

8.InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding

标题:InsightSee：推进多代理视觉语言模型，增强视觉理解能力

author:Huaxiang Zhang, Yaojia Mu, Guo-Niu Zhu, Zhongxue Gan

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20795v1

摘要：
准确的视觉理解是推进自主系统和智能机器人发展的当务之急。尽管视觉语言模型（VLM）具有处理复杂视觉场景的强大能力，但精确识别模糊或含混的视觉元素仍是一项挑战。为了解决这些问题，本文提出了一个多代理框架 InsightSee，以增强视觉语言模型在处理复杂视觉理解场景时的解释能力。该框架由一个描述代理、两个推理代理和一个决策代理组成，通过整合这些代理来完善视觉信息的解释过程。本文介绍了这些代理的设计及其在视觉信息处理中的增强机制。实验结果表明，InsightSee 框架不仅提高了特定视觉任务的性能，还保留了原始模型的优势。在 9 项基准测试中，所提出的框架在 6 项测试中的表现优于最先进的算法，在多模态理解方面取得了巨大进步。

9.Information Theoretic Text-to-Image Alignment

标题:信息论文本到图像的对齐

author:Chao Wang, Giulio Franzese, Alessandro Finamore, Massimo Gallo, Pietro Michiardi

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20759v1

摘要：
用于文本到图像（T2I）条件生成的扩散模型最近取得了巨大成功。尽管这些模型取得了成功，但要准确捕捉用户的意图仍需要一个费力的试错过程。这一挑战通常被认为是模型对齐问题，这一问题已经引起了研究界的极大关注。在这项工作中，我们提出了一种依赖于信息论对齐度量的新方法，而不是依赖于对提示的细粒度语言分析、人工注释或辅助视觉语言模型来引导图像生成。简而言之，我们的方法使用自监督微调，并依靠提示和图像之间的点向互信息来定义合成训练集，从而诱导模型对齐。我们的对比分析表明，我们的方法与最先进的方法不相上下，甚至更胜一筹，但只需要一个预训练的去噪网络来估算互信息，以及一个轻量级的微调策略。

10.Language Augmentation in CLIP for Improved Anatomy Detection on Multi-modal Medical Images

标题:CLIP 中的语言增强功能可改进多模态医学图像上的解剖检测

author:Mansi Kakkar, Dattesh Shanbhag, Chandan Aladahalli, Gurunath Reddy M

publish: $\copyright$ 2024 IEEE. Accepted in 46th Annual International
Conference of the IEEE Engineering in Medicine and Biology Society (EMBC)
2024

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20735v1

摘要：
视觉语言模型已成为解决医学领域以往具有挑战性的多模态分类问题的有力工具。这一发展促使人们开始探索自动生成多模态临床扫描图像描述，特别是用于生成放射报告。现有的研究主要集中在特定模态或身体区域的临床描述上，对于提供全身多模态描述的模型还存在空白。在本文中，我们通过在多模态 MR 和 CT 放射图像中自动生成全身的标准化体位和器官列表来填补这一空白。利用对比语言-图像预训练（CLIP）的多功能性，我们通过多项实验完善并增强了现有方法，包括基线模型微调、添加体位作为超集以提高器官之间的相关性，以及图像和语言增强。与基线 PubMedCLIP 相比，我们提出的方法提高了 47.6% 的性能。

11.Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization

标题:Shotluck Holmes：用于视频字幕和摘要的高效小规模大语言视觉模型系列

author:Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20648v1

摘要：
视频是一种日益突出和信息密集的媒体，但它也给语言模型带来了巨大的挑战。典型的视频由一系列较短的片段或镜头组成，它们共同构成了一个连贯的叙事。每个镜头都类似于句子中的一个单词，必须同时处理多个数据信息流（如视觉和听觉数据）。要理解整个视频，不仅需要理解每个镜头的视觉和听觉信息，还需要模型将每个镜头之间的想法联系起来，从而生成一个更大的、包罗万象的故事。尽管在该领域取得了重大进展，但目前的工作往往忽视了视频中更细粒度的逐个镜头语义信息。在本项目中，我们提出了一系列高效的大型语言视觉模型（LLVM），以促进视频摘要和字幕的制作，这些模型被称为 Shotluck Holmes。通过利用更好的预训练和数据收集策略，我们将现有小型 LLVM 的能力从理解一张图片扩展到理解一系列帧。具体来说，我们证明了 Shotluck Holmes 在 Shot2Story 视频字幕和摘要任务上取得了比最先进成果更好的性能，而且模型明显更小、计算效率更高。

12.Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals

标题:用反事实揭示大规模视觉语言模型中的偏差

author:Phillip Howard, Kathleen C. Fraser, Anahita Bhiwandiwalla, Svetlana Kiritchenko

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.20152v1

摘要：
大型语言模型（LLM）的功能越来越强大，随着大型语言模型（LLM）的出现，人们提出了许多大型视觉语言模型（LVLM），通过视觉输入来增强 LLM。这些模型将输入图像和文本提示作为生成文本的条件，从而实现了视觉问题解答和多模态聊天等多种应用案例。虽然之前的研究已经对 LLM 生成的文本中包含的社会偏见进行了研究，但对 LVLM 中的这一主题的研究相对较少。由于文本和视觉模式中包含的信息所引起的偏差会造成混淆，因此研究 LVLM 中的社交偏差尤其具有挑战性。为了解决这个具有挑战性的问题，我们对不同 LVLMs 在输入图像发生反事实变化的情况下生成的文本进行了大规模研究。具体来说，我们为 LVLMs 提供了相同的开放式文本提示，同时以不同反事实集的图像为条件，每个反事实集包含的图像在描述共同主题（如医生）时基本相同，但在交叉社会属性（如种族和性别）方面有所不同。我们全面评估了不同模型在这种反事实生成设置下生成的大规模文本，从流行的 LVLM 中生成了超过 5700 万条回复。我们的多维分析显示，输入图片中描述的种族、性别和身体特征等社会属性会显著影响有毒内容、能力相关词汇、有害的刻板印象以及对所描述个人的数字评级的生成。此外，我们还探讨了 LVLMs 中的社会偏见与其相应的 LLMs 之间的关系，以及减轻偏见的推理时间策略。

13.Enhancing Large Vision Language Models with Self-Training on Image Comprehension

标题:通过图像理解的自我训练强化大型视觉语言模型

author:Yihe Deng, Pan Lu, Fan Yin, Ziniu Hu, Sheng Shen, James Zou, Kai-Wei Chang, Wei Wang

publish:19 pages, 14 figures, 6 tables

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.19716v1

摘要：
大型视觉语言模型（LVLM）将大型语言模型（LLM）与预先训练好的视觉编码器整合在一起，从而激活模型的感知能力，以理解不同查询的图像输入并进行后续推理。提高这种能力需要高质量的视觉语言数据，而获取这些数据既费钱又费力。自我训练方法在单模态环境中非常有效，可以利用模型自身生成的数据来减轻对标记数据的需求。然而，对于 LVLMs 独特的视觉感知和推理能力来说，有效的自我训练仍然是一个挑战。为了解决这个问题，我们引入了图像理解自我训练（STIC），它强调专门针对图像理解的自我训练方法。首先，模型利用无标签图像自建图像描述偏好数据集。偏好的回答是通过逐步提示生成的，而不偏好的回答则是由损坏的图像或误导性提示生成的。为了进一步自我完善对提取的视觉信息的推理，我们让模型重新使用一小部分现有的指令调整数据，并将其自我生成的图像描述附加到提示中。我们在七个不同的基准测试中验证了 STIC 的有效性，结果表明其性能平均提高了 4.0%，而使用的监督微调数据却比当前方法少了 70%。进一步的研究调查了 STIC 的各种组件，并强调了其利用大量未标记图像进行自我训练的潜力。代码和数据均已公开。

14.Multi-Modal Generative Embedding Model

标题:多模态生成嵌入模型

author:Feipeng Ma, Hongwei Xue, Guangting Wang, Yizhou Zhou, Fengyun Rao, Shilin Yan, Yueyi Zhang, Siying Wu, Mike Zheng Shou, Xiaoyan Sun

date Time:2024-05-29

paper pdf:http://arxiv.org/pdf/2405.19333v1

摘要：
大多数多模态任务都可以表述为生成或嵌入问题。现有模型通常通过将语言模块解耦为用于生成的文本解码器和用于嵌入的文本编码器来解决这两类问题。为了探索多模态范式的最小化，我们试图在这项工作中实现每种模态只有一个模型。我们提出了多模态生成嵌入模型（MM-GEM），将生成和嵌入目标封装在一个大语言模型中。我们还提出了一种 “池聚合器”（PoolAggregator），以提高效率并实现细粒度嵌入和生成的能力。一个令人惊讶的发现是，这两个目标之间并无明显冲突。例如，由 ViT-Large 和 TinyLlama 实例化的 MM-GEM 在多模态嵌入模型（如跨模态检索和零镜头分类）的基准测试中表现出极具竞争力的性能，同时还具有良好的图像标题处理能力。此外，MM-GEM 还能无缝执行区域级图像标题生成和检索任务。此外，MM-GEM 中的高级文本模型为长文本和图像检索带来了超过 5% 的 Recall@1 提高。

15.MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification

标题:元标记：通过元分类检测图像描述中的幻觉

author:Laura Fieback, Jakob Spiegelberg, Hanno Gottschalk

publish:18 pages, 8 figures

date Time:2024-05-29

paper pdf:http://arxiv.org/pdf/2405.19186v1

摘要：
大型视觉语言模型（LVLMs）在视觉问题解答或图像字幕等多模态任务中表现出了非凡的能力。然而，视觉信息与生成文本之间的不一致性（一种被称为幻觉的现象）仍然是影响大型视觉语言模型可信度的一个悬而未决的问题。为了解决这个问题，最近的研究提出了结合计算成本高昂的大型（视觉）语言模型，以便在句子或子句层面检测幻觉。在这项工作中，我们引入了 MetaToken，这是一种轻量级的二进制分类器，可以以可忽略不计的成本在标记层面上检测幻觉。基于统计分析，我们揭示了 LVLM 中出现幻觉的关键因素，而这些因素在之前的研究中被忽略了。MetaToken 可应用于任何开源 LVLM，而无需了解地面实况数据，从而提供可靠的幻觉检测。我们在四个最先进的 LVLM 上评估了我们的方法，证明了我们方法的有效性。

16.ChartFormer: A Large Vision Language Model for Converting Chart Images into Tactile Accessible SVGs

标题:ChartFormer：将图表图像转换为触觉无障碍 SVG 的大型视觉语言模型

author:Omar Moured, Sara Alzalabny, Anas Osman, Thorsten Schwarz, Karin Muller, Rainer Stiefelhagen

publish:Accepted at ICCHP 2024. Codes will be available at
https://github.com/nsothman/ChartFormer

date Time:2024-05-29

paper pdf:http://arxiv.org/pdf/2405.19117v1

摘要：
图表等可视化工具对于解读复杂数据至关重要。然而，它们通常是以光栅图像的形式提供的，与盲人和视障人士的辅助技术不兼容，如压印纸或触觉显示器。同时，创建无障碍矢量图形需要视力正常者的熟练操作，并且耗费大量时间。在这项工作中，我们利用图表分析领域的先进技术，以端到端的方式生成触感图表。我们的三个主要贡献如下(1) 引入经过训练的 ChartFormer 模型，将光栅图表图像转换为触觉无障碍的 SVGs；(2) 在 Chart2Tactile 数据集（我们根据无障碍标准创建的合成图表数据集）上训练该模型；(3) 通过使用可刷新的二维触觉显示器进行试点用户研究，评估我们的 SVGs 的有效性。我们的研究成果可在 https://github.com/nsothman/ChartFormer 网站上公开获取。

17.Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer

标题:通过 LLM 知识转移提高零镜头面部表情识别能力

author:Zengqun Zhao, Yu Cao, Shaogang Gong, Ioannis Patras

date Time:2024-05-29

paper pdf:http://arxiv.org/pdf/2405.19100v1

摘要：
目前的面部表情识别（FER）模型通常是以监督学习的方式设计的，因此受到缺乏高质量注释的大规模面部表情图像的限制。因此，这些模型往往不能很好地泛化，在训练未见过的图像时表现不佳。基于视觉语言的零镜头模型在应对这些挑战方面展现出了巨大的潜力。然而，这些模型缺乏特定任务的知识，因此无法针对识别面部表情的细微差别进行优化。为了弥补这一差距，本研究提出了一种新方法 Exp-CLIP，通过从大型语言模型（LLM）中转移任务知识来增强零镜头 FER。具体来说，在预先训练的视觉语言编码器的基础上，我们加入了一个投影头，旨在将初始的视觉语言联合空间映射到捕捉面部动作表征的空间中。为了训练该投影头以进行后续的零点预测，我们建议将投影的视觉表征与从 LLM 编码器中得出的特定任务语义进行对齐，并采用基于文本指令的策略来定制 LLM 知识。在未标记面部数据和高效训练投影头的情况下，Exp-CLIP 在七个野外 FER 数据集上取得了优于 CLIP 模型和其他几个大型视觉语言模型（LVLM）的零误差预测结果。代码和预训练模型可在（url{https://github.com/zengqunzhao/Exp-CLIP}.

18.LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification

标题:基于 LLM 的分层概念分解实现可解释的细粒度图像分类

author:Renyi Qu, Mark Yatskar

date Time:2024-05-29

paper pdf:http://arxiv.org/pdf/2405.18672v2

摘要：
(曲仁义的硕士论文）视觉语言任务可解释模型的最新进展已经取得了具有竞争力的性能；然而，由于依赖于大型语言模型（LLM）的非结构化文本输出，其可解释性往往受到影响。这就引入了随机性，损害了透明度和可靠性，而透明度和可靠性对于解决人工智能系统的安全问题至关重要。我们引入了分层概念分解（texttt{Hi-CoDe}），这是一个新颖的框架，旨在通过结构化概念分析增强模型的可解释性。我们的方法由两个主要部分组成：(1) 我们使用 GPT-4 将输入图像分解为视觉概念的结构层次，从而形成视觉概念树；(2) 然后，我们使用简单线性分类器集合，对从 CLIP 中提取的特定概念特征进行分类。我们的方法不仅与最先进模型的性能相一致，而且通过提供对决策过程的清晰洞察和突出各种概念的重要性，提高了透明度。这样就可以对潜在的故障模式进行详细分析，并提高模型的紧凑性，从而在不影响准确性的前提下，在可解释性方面树立了新的标杆。

19.Recent Advances of Foundation Language Models-based Continual Learning: A Survey

标题:基于基础语言模型的持续学习的最新进展：调查

author:Yutao Yang, Jie Zhou, Xuanwen Ding, Tianyu Huai, Shunyu Liu, Qin Chen, Liang He, Yuan Xie

date Time:2024-05-28

paper pdf:http://arxiv.org/pdf/2405.18653v1

摘要：
最近，基础语言模型（LM）在自然语言处理（NLP）和计算机视觉（CV）领域取得了重大成就。与传统的神经网络模型不同，基础语言模型通过在具有大量参数的广泛无监督数据集上进行预训练，获取丰富的常识性知识，从而获得强大的迁移学习能力。然而，由于存在灾难性遗忘，它们仍然无法模拟类似人类的持续学习。因此，人们开发了各种基于持续学习（CL）的方法来完善 LM，使它们能够适应新任务而不遗忘以前的知识。然而，我们仍然缺乏对现有方法的系统分类以及对其性能的比较，而这正是我们的调查要填补的空白。我们全面回顾、总结和分类了应用于基础语言模型（如预训练语言模型 (PLM)、大型语言模型 (LLM) 和视觉语言模型 (VLM)）的基于 CL 方法的现有文献。我们将这些研究分为离线 CL 和在线 CL，其中包括传统方法、基于参数效率的方法、基于指令调整的方法和持续预训练方法。离线CL包括领域增量学习、任务增量学习和类增量学习，而在线CL又分为硬任务边界和模糊任务边界设置。此外，我们还概述了持续学习研究中使用的典型数据集和指标，并详细分析了基于 LMs 的持续学习所面临的挑战和未来的工作。

20.Why are Visually-Grounded Language Models Bad at Image Classification?

标题:为什么视觉化语言模型在图像分类中表现不佳？

author:Yuhui Zhang, Alyssa Unell, Xiaohan Wang, Dhruba Ghosh, Yuchang Su, Ludwig Schmidt, Serena Yeung-Levy

date Time:2024-05-28

paper pdf:http://arxiv.org/pdf/2405.18415v1

摘要：
图像分类是机器视觉智能最基本的能力之一。在这项工作中，我们使用 GPT-4V 和 LLaVA 等视觉基础语言模型 (VLM) 重新审视了图像分类任务。我们发现，尽管现有的专有和公共 VLM 通常使用 CLIP 作为视觉编码器，并且拥有更多参数，但在 ImageNet 等标准图像分类基准上，VLM 的性能明显低于 CLIP。为了了解原因，我们探讨了有关 VLM 的推理算法、训练目标和数据处理的几种假设。我们的分析表明，主要原因与数据有关：图像分类的关键信息被编码在 VLM 的潜在空间中，但只有通过足够的训练数据才能有效解码。具体来说，在 VLM 的训练和指令调整过程中，接触类别的频率与 VLM 在这些类别中的表现之间存在很强的相关性；当使用足够的数据进行训练时，VLM 的准确性可以与最先进的分类模型相媲美。基于这些发现，我们在 VLM 的训练中整合了以分类为重点的数据集，从而增强了 VLM 的能力，并证明了 VLM 所增强的分类性能可以转化为其通用能力，从而在新收集的 ImageWikiQA 数据集上提高了 11.8%。

21.Privacy-Aware Visual Language Models

标题:注重隐私的视觉语言模型

author:Laurens Samson, Nimrod Barazani, Sennay Ghebreab, Yuki M. Asano

publish:preprint

date Time:2024-05-27

paper pdf:http://arxiv.org/pdf/2405.17423v1

摘要：
本文旨在加深我们对视觉语言模型（VLM）如何处理隐私敏感信息的理解，随着这些技术逐渐融入日常生活，隐私敏感信息已成为人们关注的焦点。为此，我们引入了一个新基准 PrivBench，其中包含护照或指纹等 8 个敏感类别的图像。我们在这一基准上评估了 10 种最先进的 VLM，发现它们对隐私的理解普遍有限，突出了模型改进的重要领域。在此基础上，我们引入了 PrivTune，这是一个新的指令调整数据集，旨在为 VLM 提供有关视觉隐私的知识。通过在这个小型数据集上对 TinyLLaVa 和 MiniGPT-v2 这两个经过预训练的 VLM 进行调整，我们发现它们识别敏感内容的能力有了很大提高，甚至超过了 GPT4-V。同时，我们还表明，在标准基准（如 VQA）上，隐私调整对 VLM 性能的影响微乎其微。总之，本文提出了让 VLMs 有效安全地处理真实世界数据的关键挑战，并提供了一个简单的方法，迈出了构建隐私感知 VLMs 的第一步。

22.An Introduction to Vision-Language Modeling

标题:视觉语言建模入门

author:Florian Bordes, Richard Yuanzhe Pang, Anurag Ajay, Alexander C. Li, Adrien Bardes, Suzanne Petryk, Oscar Mañas, Zhiqiu Lin, Anas Mahmoud, Bargav Jayaraman, Mark Ibrahim, Melissa Hall, Yunyang Xiong, Jonathan Lebensold, Candace Ross, Srihari Jayakumar, Chuan Guo, Diane Bouchacourt, Haider Al-Tahan, Karthik Padthe, Vasu Sharma, Hu Xu, Xiaoqing Ellen Tan, Megan Richards, Samuel Lavoie, Pietro Astolfi, Reyhane Askari Hemmat, Jun Chen, Kushal Tirumala, Rim Assouel, Mazda Moayeri, Arjang Talattof, Kamalika Chaudhuri, Zechun Liu, Xilun Chen, Quentin Garrido, Karen Ullrich, Aishwarya Agrawal, Kate Saenko, Asli Celikyilmaz, Vikas Chandra

date Time:2024-05-27

paper pdf:http://arxiv.org/pdf/2405.17247v1

摘要：
大语言模型（LLMs）最近大受欢迎，人们开始尝试将其扩展到视觉领域。从可以引导我们穿越陌生环境的视觉助手，到仅使用高级文本描述就能生成图像的生成模型，视觉语言模型（VLM）的应用将极大地影响我们与技术的关系。然而，要提高这些模型的可靠性，还需要应对许多挑战。语言是离散的，而视觉是在一个维度更高的空间中发展的，其中的概念不可能总是很容易地被离散化。为了更好地理解将视觉映射到语言背后的机制，我们将介绍 VLM，希望能对任何想进入这一领域的人有所帮助。首先，我们将介绍什么是 VLM、VLM 如何工作以及如何训练 VLM。然后，我们介绍并讨论评估 VLM 的方法。虽然这项工作主要侧重于将图像映射为语言，但我们也讨论了将 VLM 扩展到视频的问题。

23.Compressed-Language Models for Understanding Compressed File Formats: a JPEG Exploration

标题:理解压缩文件格式的压缩语言模型：JPEG 探索

author:Juan C. Pérez, Alejandro Pardo, Mattia Soldan, Hani Itani, Juan Leon-Alcazar, Bernard Ghanem

date Time:2024-05-27

paper pdf:http://arxiv.org/pdf/2405.17146v1

摘要：
本研究探讨了压缩语言模型（CLM），即对压缩文件格式（CFF）的原始字节流进行操作的语言模型，能否理解由 CFF 压缩的文件。考虑到 JPEG 格式的共通性及其在压缩中关键概念（如熵编码和运行长度编码）的代表性，我们将 JPEG 格式作为具有代表性的 CFF。我们通过探究 CLM 在以下三个方面的能力来测试它们是否理解 JPEG 格式：识别固有文件属性、处理异常文件和生成新文件。我们的研究结果表明，CLM 可以有效地完成这些任务。这些结果表明，CLM 在直接对 CFF 生成的文件字节流进行操作时，能够理解压缩数据的语义。直接操作原始压缩文件的可能性为利用压缩文件的一些显著特点提供了希望，例如它们的普遍性、紧凑性、多模式性和分段性。

24.Mixture of Modality Knowledge Experts for Robust Multi-modal Knowledge Graph Completion

标题:混合模态知识专家，实现稳健的多模态知识图谱补全

author:Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Binbin Hu, Ziqi Liu, Wen Zhang, Huajun Chen

publish:Work in progress. Code and data will be released at
https://github.com/zjukg/MoMoK

date Time:2024-05-27

paper pdf:http://arxiv.org/pdf/2405.16869v1

摘要：
多模态知识图谱补全（MMKGC）旨在自动发现给定的多模态知识图谱（MMKG）中的新知识三元组，通过对隐藏在海量三元组中的结构信息和实体的多模态特征进行协同建模来实现。现有的方法往往侧重于精心设计优雅的实体多模态融合策略，但却忽视了在不同关系背景下对隐藏在模态中的多视角特征的利用。为了解决这个问题，我们引入了一个新颖的 MMKGC 框架，利用混合模态知识专家（简称 MoMoK）在错综复杂的关系上下文中学习自适应多模态嵌入。我们设计了关系引导的模态知识专家，以获取关系感知模态嵌入，并整合多模态预测，从而实现综合决策。此外，我们还通过最小化专家间的互信息来分隔专家。在四个公共 MMKG 基准上进行的实验证明了 MoMoK 在复杂场景下的出色表现。

25.CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification

标题:CapS-Adapter：零镜头分类中基于字幕的多模态适配器

author:Qijie Wang, Guandu Liu, Bin Wang

date Time:2024-05-26

paper pdf:http://arxiv.org/pdf/2405.16591v1

摘要：
视觉语言基础模型（如 CLIP）的最新进展表明，零镜头分类取得了长足进步。不过，由于 CLIP 等模型的参数设置范围很广，因此需要进行资源密集型的微调。为此，TIP-Adapter 和 SuS-X 引入了免训练方法，旨在提高下游任务的效率。虽然这些方法结合了支持集来保持知识缓存和测试集之间的数据分布一致性，但它们在测试集上的泛化能力往往不足，尤其是在测试数据表现出巨大的分布变化时。在这项工作中，我们提出了 CapS-Adapter，这是一种创新方法，它采用了基于标题的支持集，有效地利用了图像和标题特征，在无需训练的情况下超越了现有的一流技术。CapS-Adapter 利用从多模态大型模型中提取的实例级分布特征，巧妙地构建了与目标分布密切相关的支持集。通过利用 CLIP 的单模态和跨模态优势，CapS-Adapter 通过使用多模态支持集提高了预测准确性。我们的方法在 19 个基准数据集上取得了出色的零点分类结果，与之前的领先方法相比，准确率提高了 2.19/%。通过在多个基准数据集上的广泛验证，我们的贡献得到了证实，证明了其卓越的性能和强大的泛化能力。我们的代码在 https://github.com/WLuLi/CapS-Adapter 上公开发布。