AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.08.01-2024.08.05

最新推荐文章于 2024-08-14 23:30:40 发布

小小帅AIGC

最新推荐文章于 2024-08-14 23:30:40 发布

阅读量460

点赞数 17

分类专栏： VLM论文时报文章标签：人工智能语言模型自然语言处理 VLM 视觉语言模型大语言模型计算机视觉

本文链接：https://blog.csdn.net/weixin_44362044/article/details/141174602

版权

VLM论文时报专栏收录该内容

39 篇文章 19 订阅

订阅专栏

文章目录～

1.Pre-trained Encoder Inference: Revealing Upstream Encoders In Downstream Machine Learning Services
2.MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models
3.Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
4.Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs
5.UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model
6.Infusing Environmental Captions for Long-Form Video Language Grounding
7.Cross-Domain Semantic Segmentation on Inconsistent Taxonomy using VLMs
8.Evaluating Vision-Language Models for Zero-Shot Detection, Classification, and Association of Motorcycles, Passengers, and Helmets
9.Unsupervised Domain Adaption Harnessing Vision-Language Pre-training
10.Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models
11.Multi-Frame Vision-Language Model for Long-form Reasoning in Driver Behavior Analysis
12.MMPKUBase: A Comprehensive and High-quality Chinese Multi-modal Knowledge Graph
13.A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks
14.VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling
15.UNER: A Unified Prediction Head for Named Entity Recognition in Visually-rich Documents
16.Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation
17.Are Bigger Encoders Always Better in Vision Large Models?
18.Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation
19.Mitigating Multilingual Hallucination in Large Vision-Language Models

1.Pre-trained Encoder Inference: Revealing Upstream Encoders In Downstream Machine Learning Services

标题:预训练编码器推理：揭示下游机器学习服务中的上游编码器

author:Shaopeng Fu, Xuexue Sun, Ke Qing, Tianhang Zheng, Di Wang

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02814v1

摘要：
虽然可以轻松在线访问预训练编码器，快速构建下游机器学习（ML）服务，但人们设计了各种攻击来破坏这些编码器的安全性和隐私性。虽然大多数攻击针对的是上游侧的编码器，但编码器在部署到下游机器学习服务中时如何受到威胁仍是未知数。本文揭示了一种新的漏洞：预训练编码器推理（PEI）攻击，这种攻击会对隐藏在下游 ML 服务背后的编码器造成隐私威胁。只需提供对目标下游服务和一组候选编码器的 API 访问，PEI 攻击就能根据候选编码器推断出目标服务秘密使用的编码器。我们在三个下游任务中评估了 PEI 针对真实世界编码器的攻击性能：图像分类、文本分类和文本到图像生成。实验表明，PEI 攻击在大多数情况下都能成功揭示隐藏的编码器，即使隐藏的编码器不在候选集中，也很少出错。我们还对最新的视觉语言模型之一 LLaVA 进行了案例研究，以说明 PEI 攻击可用于辅助其他 ML 攻击，如对抗攻击。代码见 https://github.com/fshp971/encoder-inference。

2.MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

标题:MMIU：用于评估大型视觉语言模型的多模态多图像理解技术

author:Fanqing Meng, Jin Wang, Chuanhao Li, Quanfeng Lu, Hao Tian, Jiaqi Liao, Xizhou Zhu, Jifeng Dai, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao

publish:Project Page: https://mmiu-bench.github.io/

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02718v1

摘要：
处理多幅图像的能力对于大型视觉语言模型（LVLM）更全面、更细致地了解场景至关重要。最近的多图像 LVLM 已开始满足这一需求。然而，对它们的评估却没有跟上其发展的步伐。为了填补这一空白，我们推出了多模态多图像理解（MMIU）基准，这是一个综合评估套件，旨在评估各种多图像任务中的 LVLM。MMIU 包括 7 种多图像关系、52 项任务、77K 张图像和 11K 道精心策划的选择题，是同类基准中范围最广的。我们对 24 种流行的 LVLM（包括开源和专有模型）进行了评估，结果表明，多图像理解，尤其是涉及空间理解的任务，面临着巨大的挑战。即使是最先进的模型，如 GPT-4o，在 MMIU 上也只能达到 55.7% 的准确率。通过多方面的分析实验，我们找出了主要的性能差距和局限性，为未来改进模型和数据提供了宝贵的见解。我们的目标是让 MMIU 推动 LVLM 研究与开发的前沿，使我们朝着实现复杂的多模态多图像用户交互的方向迈进。

3.Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

标题:Lumina-mGPT：用多模态生成预训练照亮灵活的照相式文本到图像生成

author:Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao

publish:Code available at: https://github.com/Alpha-VLLM/Lumina-mGPT

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02657v1

摘要：
我们介绍了 Lumina-mGPT，这是一个多模态自回归模型系列，能够完成各种视觉和语言任务，尤其擅长根据文本描述生成灵活的逼真图像。与现有的自回归图像生成方法不同，Lumina-mGPT 采用预训练解码器转换器作为多模态标记序列建模的统一框架。我们的主要见解是，简单的纯解码器变换器与多模态生成预训练（mGPT）相结合，利用对海量交错文本-图像序列的下一个标记预测目标，可以学习广泛而通用的多模态能力，从而照亮逼真的文本-图像生成。在这些预训练模型的基础上，我们提出了对高质量图像-文本对进行灵活渐进式监督微调（FP-SFT）的建议，以充分释放这些模型在任何分辨率下合成高美感图像的潜力，同时保持其通用的多模态能力。此外，我们还引入了 Ominiponent Supervised Finetuning (Omni-SFT)，将 Lumina-mGPT 转化为可无缝实现全能任务统一的基础模型。由此产生的模型展示了多功能多模态能力，包括灵活的文本到图像生成和可控生成等视觉生成任务、分割和深度估计等视觉识别任务以及多轮视觉问题解答等视觉语言任务。此外，我们还通过直接比较分析了基于扩散的方法和自回归方法之间的异同。

4.Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs

标题:基于对比学习的多模态架构：通过图像-文本对进行表情符号预测

author:Ananya Pandey, Dinesh Kumar Vishwakarma

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02571v1

摘要：
表情符号是一种符号表示，通常与文字内容一起出现，以直观的方式增强或概括书面信息的真实意图。虽然这些表情符号在社交媒体领域被广泛使用，但其核心语义还没有被基于多种模式进行广泛探讨。将文字和视觉信息整合到一条信息中是一种先进的信息传递方式。因此，本研究旨在分析句子、视觉效果和表情符号之间的关系。为了有序地进行阐述，本文首先对提取多模态特征的各种技术进行了详细研究，并强调了每种方法的优缺点。通过对几种多模态算法的全面研究，特别是对融合方法的研究，我们提出了一种基于对比学习的新型多模态架构。该模型采用双分支编码器联合训练和对比学习的方法，将文本和图像准确映射到一个共同的潜在空间中。我们的主要发现是，通过将对比学习原理与其他两个分支的原理相结合，可以产生更优越的结果。实验结果表明，我们提出的方法在准确性和鲁棒性方面都超越了现有的多模态方法。在使用从推特（Twitter）获取的多模态-推特表情符号数据集评估表情符号时，所建议的模型达到了 91% 的准确率和 90% 的 MCC 分数。我们提供的证据表明，通过对比学习获得的深度特征更有效，这表明所提出的融合技术在识别多种模式的表情符号方面也具有很强的泛化能力。

5.UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

标题:UnifiedMLLM：利用大型语言模型为多模式多任务提供统一表示法

author:Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02503v1

摘要：
最近，多模态大型语言模型（MLLMs）领域取得了重大进展，展示了它们在理解和推理各种任务方面的卓越能力。然而，这些模型通常是针对特定任务训练的，并依赖于特定任务的输入输出格式，从而限制了它们在更广泛任务中的适用性。这就提出了一个基本问题：我们能否开发一种统一的方法来表示和处理不同的多模态任务，从而最大限度地提高 MLLM 的通用性？在本文中，我们提出了 UnifiedMLLM，这是一个旨在使用统一表示法表示各种任务的综合模型。我们的模型在理解用户指令的隐含意图和进行推理方面表现出很强的能力。除了生成文本响应外，我们的模型还输出任务标记和基础标记，作为任务类型和任务粒度的指标。这些输出随后会通过任务路由器，定向到特定的专家模型以完成任务。为了训练我们的模型，我们构建了一个特定任务数据集和一个包含复杂场景的 100k 多任务数据集。我们采用三阶段训练策略，使模型具备强大的推理和任务处理能力，同时保留其泛化能力和知识库。广泛的实验表明，我们的统一表示方法在各种任务中的表现令人印象深刻，超越了现有方法。此外，我们的方法还表现出卓越的可扩展性和通用性。我们的代码、模型和数据集将发布在 \url{https://github.com/lzw-lzw/UnifiedMLLM} 网站上。

6.Infusing Environmental Captions for Long-Form Video Language Grounding

标题:为长篇视频语言基础注入环境字幕

author:Hyogun Lee, Soyeon Hong, Mujeen Sung, Jinwoo Choi

publish:7 pages, 3 figures

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02336v2

摘要：
在这项工作中，我们解决了长视频语言定位（VLG）问题。在给定一段长视频和一个自然语言查询的情况下，一个模型应在时间上定位出回答查询的精确时刻。即使是任意长度的视频，人类也能利用从经验中获得的广泛而稳健的知识摒弃不相关的时刻，从而轻松解决 VLG 任务。与人类不同的是，现有的 VLG 方法很容易陷入从小规模数据集中学到的肤浅线索中，即使这些线索是在无关的帧中。为了克服这一难题，我们提出了 EI-VLG 这种 VLG 方法，它利用多模态大语言模型（MLLM）提供的更丰富的文本信息作为人类经验的代表，帮助有效地排除无关帧。我们在具有挑战性的 EgoNLQ 基准上进行了大量实验，验证了所提方法的有效性。

7.Cross-Domain Semantic Segmentation on Inconsistent Taxonomy using VLMs

标题:使用 VLM 对不一致分类法进行跨域语义分割

author:Jeongkee Lim, Yusung Kim

publish:ECCV 2024

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02261v1

摘要：
无监督领域适应（UDA）中语义分割的挑战不仅来自源图像和目标图像之间的领域转换，还来自不同领域中类别分类法的差异。传统的 UDA 研究假设源领域和目标领域的分类法一致，从而限制了其识别和适应目标领域分类法的能力。本文介绍了一种新颖的方法–利用视觉语言模型在不一致分类法上进行跨域语义分割（CSI），即使在源-目标类别不匹配的情况下，它也能有效地执行域自适应语义分割。CSI 利用视觉语言模型 (VLM) 的语义泛化潜力，与之前的 UDA 方法形成协同效应。它利用通过传统 UDA 方法获得的分段推理，结合嵌入在 VLM 中的丰富语义知识，对目标领域中的新类别进行重新标注。这种方法可以有效地适应扩展分类法，而不需要目标领域的任何基本真实标签。我们的方法在分类设置不一致（从粗到细分类法和开放分类法）的情况下，在各种基准测试中都表现出了很好的效果，并且在与以前最先进的 UDA 方法集成时，表现出了一致的协同效应。实现方法可在 http://github.com/jkee58/CSI 上获取。

8.Evaluating Vision-Language Models for Zero-Shot Detection, Classification, and Association of Motorcycles, Passengers, and Helmets

标题:评估用于摩托车、乘客和头盔零距离检测、分类和关联的视觉语言模型

author:Lucas Choi, Ross Greer

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02244v1

摘要：
摩托车事故具有极大的风险，尤其是当骑手和乘客没有佩戴头盔时。本研究评估了先进的视觉语言基础模型 OWLv2 在利用视频数据检测和分类摩托车乘员的各种头盔佩戴状态方面的功效。我们扩展了 CVPR 人工智能城市挑战赛提供的数据集，并采用级联模型方法，将 OWLv2 和 CNN 模型集成到检测和分类任务中。结果凸显了零镜头学习在应对不完整和有偏差的训练数据集所带来的挑战方面的潜力，展示了此类模型在不同条件下检测摩托车、头盔使用情况和乘员位置方面的应用。我们的头盔检测平均精度达到 0.5324，并提供了精度-召回曲线，详细说明了检测和分类性能。尽管存在低分辨率数据和能见度差等限制，但我们的研究表明，自动驾驶车辆安全和交通安全执法系统有望取得进展。

9.Unsupervised Domain Adaption Harnessing Vision-Language Pre-training

标题:利用视觉语言预训练的无监督领域自适应技术

author:Wenlve Zhou, Zhiheng Zhou

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02192v1

摘要：
本文探讨了无监督领域适应（UDA）中的两个重要挑战，重点是利用视觉语言预训练（VLP）模型的力量。首先，UDA 主要依赖于 ImageNet 预训练模型。然而，VLP 模型在 UDA 中的潜力在很大程度上仍未得到开发。VLP 模型丰富的表征为增强 UDA 任务带来了巨大希望。为此，我们提出了一种名为跨模态知识蒸馏（CMKD）的新方法，利用 VLP 模型作为教师模型来指导目标领域的学习过程，从而实现最先进的性能。其次，当前的 UDA 范式涉及为每个任务训练单独的模型，这会导致巨大的存储开销，并且随着传输任务数量的增加，模型部署也变得不切实际。为了克服这一挑战，我们引入了残差稀疏训练（RST），利用 VLP 广泛的预训练所带来的优势，这种技术只需对 VLP 模型参数进行最小程度的调整（约 0.1%$\sim$0.5%），就能实现与微调相当的性能。结合 CMKD 和 RST，我们提出了一个全面的解决方案，可有效利用 VLP 模型完成 UDA 任务，同时减少模型部署的存储开销。此外，CMKD 还可以作为基线与 FixMatch 等其他方法结合使用，从而提高 UDA 的性能。我们提出的方法在标准基准上优于现有技术。我们的代码可在以下网址获取：https://github.com/Wenlve-Zhou/VLP-UDA。

10.Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models

标题:自省解码：减轻大型视觉语言模型的幻觉

author:Fushuo Huo, Wenchao Xu, Zhong Zhang, Haozhao Wang, Zhicheng Chen, Peilin Zhao

date Time:2024-08-04

paper pdf:http://arxiv.org/pdf/2408.02032v1

摘要：
近年来，大型视觉语言模型（LVLMs）发展迅速，但普遍存在的 "幻觉 "问题已成为一个重大瓶颈，阻碍了其在现实世界中的应用。现有方法主要从两个方面缓解这一问题：一种方法是利用额外的知识，如通过策划数据集或采用辅助分析网络对 LVLM 进行强健指导调整，这不可避免地会产生额外成本。另一种方法被称为 “对比解码”（contrastive decoding），它通过手动干扰视觉或指令原始输入来诱发幻觉，并通过对比被干扰的 LVLM 和原始 LVLM 的输出来缓解幻觉。然而，这些方法依赖于经验性的整体输入干扰，推理成本加倍。为了避免这些问题，我们提出了一种简单而有效的方法，名为自内省解码（SID）。我们的实证研究表明，经过预训练的 LVLM 可以根据之前的视觉和文本（包括指令和生成的文本）标记，自省地评估视觉标记的重要性。我们开发了 “上下文和文本感知标记选择”（CT2S）策略，该策略在 LVLM 早期层之后仅保留不重要的视觉标记，以便在自动回归解码过程中适应性地放大文本感知幻觉。这种方法确保了在早期层中吸收的多模态知识能够诱发多模态语境幻觉，而不是漫无目的的幻觉。随后，原始标记对数会减去放大的视觉与文本关联幻觉，从而忠实地指导 LVLM 解码。广泛的实验表明，在各种指标上，SID 生成的幻觉较少，文本质量较高，而且不需要额外的知识和额外的计算负担。

11.Multi-Frame Vision-Language Model for Long-form Reasoning in Driver Behavior Analysis

标题:用于驾驶员行为分析中长篇推理的多帧视觉语言模型

author:Hiroshi Takato, Hiroshi Tsutsui, Komei Soda, Hidetaka Kamigaito

publish:On-going work

date Time:2024-08-03

paper pdf:http://arxiv.org/pdf/2408.01682v1

摘要：
识别真实世界中的危险驾驶行为对驾驶员和行人的安全都至关重要。然而，在这一领域整合自然语言模型的工作仍相对欠缺。为了解决这个问题，我们创建了一个新颖的多模态指令调整数据集和驾驶指导推理系统。我们的主要应用案例是基于仪表盘的商业驾驶员教练。从 2022 年到 2027 年，北美监控摄像头市场的复合年增长率预计将达到 15.4%。我们的数据集使语言模型能够学习各种危险驾驶场景中的视觉指令，强调对有效驾驶指导和管理理解至关重要的细节推理。我们的模型是在面向路面和面向驾驶员的 RGB 摄像头镜头上进行训练的，能够全面捕捉装有仪表盘摄像机的车辆的驾驶行为。

12.MMPKUBase: A Comprehensive and High-quality Chinese Multi-modal Knowledge Graph

标题:MMPKUBase：全面、高质量的中文多模态知识图谱

author:Xuan Yi, Yanzeng Li, Lei Zou

date Time:2024-08-03

paper pdf:http://arxiv.org/pdf/2408.01679v1

摘要：
多模态知识图谱已成为一种强大的信息表示方法，它结合了来自文本、图像和视频等不同模态的数据。虽然已经构建了一些此类图谱，并在可视化问题解答和推荐系统等应用中发挥了重要作用，但其发展仍面临挑战。这些挑战包括高质量中文知识图谱的匮乏以及现有多模态知识图谱的领域覆盖范围有限。本文介绍的 MMPKUBase 是一个强大而广泛的中文多模态知识图谱，涵盖鸟类、哺乳动物、蕨类植物等多个领域，包含 50,000 多个实体和 100 多万张过滤图片。为确保数据质量，我们采用了原型对比学习（Prototypical Contrastive Learning）和隔离森林（Isolation Forest）算法来完善图像数据。此外，我们还开发了一个用户友好型平台，方便用户探索图像属性。

13.A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks

标题:多模态大型语言模型综合评述：不同任务的性能与挑战

author:Jiaqi Wang, Hanqi Jiang, Yiheng Liu, Chong Ma, Xu Zhang, Yi Pan, Mengyuan Liu, Peiran Gu, Sichen Xia, Wenjun Li, Yutong Zhang, Zihao Wu, Zhengliang Liu, Tianyang Zhong, Bao Ge, Tuo Zhang, Ning Qiang, Xintao Hu, Xi Jiang, Xin Zhang, Wei Zhang, Dinggang Shen, Tianming Liu, Shu Zhang

date Time:2024-08-02

paper pdf:http://arxiv.org/pdf/2408.01319v1

摘要：
在数据爆炸式增长和技术飞速发展的时代，多模态大语言模型（MLLM）站在了人工智能（AI）系统的最前沿。多模态大语言模型旨在无缝集成各种数据类型，包括文本、图像、视频、音频和生理序列，它能解决现实世界应用中的复杂问题，远远超出了单模态系统的能力。在本文中，我们系统地梳理了 MLLM 在自然语言、视觉和音频等多模态任务中的应用。我们还比较分析了不同 MLLM 在任务中的侧重点，深入剖析了当前 MLLM 的不足之处，并提出了未来研究的潜在方向。通过这些讨论，本文希望能为 MLLM 的进一步发展和应用提供有价值的见解。

14.VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling

标题:VAR-CLIP：采用可视化自动回归建模的文本到图像生成器

author:Qian Zhang, Xiangzi Dai, Ninghua Yang, Xiang An, Ziyong Feng, Xingyu Ren

publish:total 10 pages, code:https://github.com/daixiangzi/VAR-CLIP

date Time:2024-08-02

paper pdf:http://arxiv.org/pdf/2408.01181v1

摘要：
VAR 是采用 "下一尺度预测 "而非 "下一标记预测 "的新一代范式。这种创新的转换使自动回归（AR）转换器能够快速学习视觉分布并实现稳健的泛化。然而，原始的 VAR 模型仅限于以类为条件的合成，完全依赖于文本标题的指导。在本文中，我们介绍了 VAR-CLIP，这是一种新颖的文本到图像模型，它将视觉自回归技术与 CLIP 的功能融为一体。VAR-CLIP 框架将标题编码为文本嵌入，然后将其用作生成图像的文本条件。为了便于在广泛的数据集（如 ImageNet）上进行训练，我们利用 BLIP2 构建了大量图像-文本数据集。此外，我们还深入研究了 CLIP 中单词定位对标题引导的意义。广泛的实验证实，VAR-CLIP 在生成高保真、文本一致和美观的幻想图像方面非常熟练。我们的项目页面是 https://github.com/daixiangzi/VAR-CLIP

15.UNER: A Unified Prediction Head for Named Entity Recognition in Visually-rich Documents

标题:UNER：用于视觉丰富文档中命名实体识别的统一预测头

author:Yi Tu, Chong Zhang, Ya Guo, Huan Chen, Jinyang Tang, Huijia Zhu, Qi Zhang

publish:accepted by ACM Multimedia 2024

date Time:2024-08-02

paper pdf:http://arxiv.org/pdf/2408.01038v1

摘要：
在视觉丰富的文档中识别命名实体（VrD-NER）在现实世界的各种场景和应用中发挥着至关重要的作用。然而，VrD-NER 的研究面临着三大挑战：复杂的文档布局、不正确的阅读顺序和不合适的任务表述。为了应对这些挑战，我们提出了一种查询感知实体提取头（即 UNER），与现有的多模态文档转换器合作，以开发更强大的 VrD-NER 模型。UNER 头将 VrD-NER 任务视为序列标注和阅读顺序预测的结合，有效地解决了文档中不连续实体的问题。在不同数据集上进行的实验评估证明，UNER 在提高实体提取性能方面非常有效。此外，UNER 头在各种 VrD-NER 数据集上实现了有监督的预训练阶段，以增强文档转换器骨干，并从预训练阶段到微调阶段实现了大量的知识转移。通过纳入通用布局理解，基于 UNER 的预训练模型在少镜头和跨语言场景中表现出显著优势，并展现出零镜头实体提取能力。

16.Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation

标题:协同视觉-文本表示优化开放词汇分割

author:Siyu Jiao, Hongguang Zhu, Jiannan Huang, Yao Zhao, Yunchao Wei, Humphrey Shi

publish:ECCV 2024

date Time:2024-08-01

paper pdf:http://arxiv.org/pdf/2408.00744v1

摘要：
预先训练的视觉语言模型（如 CLIP）因其视觉-文本嵌入空间的良好一致性而被越来越多地用于解决具有挑战性的开放式词汇分割（OVS）任务。典型的解决方案包括在训练过程中冻结 CLIP，以单方面保持其零点能力，或者微调 CLIP 视觉编码器，以实现对局部区域的感知灵敏度。但是，其中很少有结合视觉与文本协同优化的方案。在此基础上，我们提出了 “内容相关传输”（Content-Dependent Transfer）技术，通过与输入图像交互来自适应地增强每个文本嵌入，从而提供了一种参数高效的文本表示优化方法。此外，我们还引入了 “表征补偿”（Representation Compensation）策略，回顾 CLIP-V 的原始表征作为补偿，以保持 CLIP 的零镜头能力。通过这种方式，CLIP 的视觉和文本表示得到了协同优化，增强了视觉-文本特征空间的一致性。据我们所知，我们是第一个在 OVS 领域建立视觉-文本协同优化机制的人。广泛的实验证明，我们的方法在流行的 OVS 基准上取得了优异的性能。在开放词汇语义分割方面，我们的方法在 A-847、A-150、PC-459、PC-59 和 PAS-20 上的表现分别优于之前最先进的方法 +0.5、+2.3、+3.4、+0.4 和 +1.1 mIoU。此外，在 ADE20K 上的泛光设置中，我们实现了 27.1 PQ、73.5 SQ 和 32.9 RQ 的性能。代码见 https://github.com/jiaosiyu1999/MAFT-Plus.git 。

17.Are Bigger Encoders Always Better in Vision Large Models?

标题:在大型模型视觉中，编码器越大越好吗？

author:Bozhou Li, Hao Liang, Zimo Meng, Wentao Zhang

date Time:2024-08-01

paper pdf:http://arxiv.org/pdf/2408.00620v1

摘要：
近年来，多模态大型语言模型（MLLMs）在现实世界的应用中显示出强大的潜力。由于其卓越的多模态信息理解能力以及与生俱来的强大认知和推理能力，多模态大语言模型发展迅速。在大型语言模型中，视觉语言模型（VLM）因其理解视觉信息的能力而脱颖而出。然而，在目前的主流模式下，VLM 的扩展趋势尚未得到广泛研究。我们是否能通过训练更大的模型来获得更好的性能仍不清楚。为了解决这个问题，我们在 MLLM 的预训练阶段进行了实验。我们使用不同大小的编码器和大语言模型（LLM）进行实验。我们的研究结果表明，仅仅增加编码器的大小并不一定能提高 VLM 的性能。此外，我们还分析了 LLM 骨干参数大小和数据质量对预训练结果的影响。此外，我们还探讨了 LLM 和 VLM 在缩放规律上的差异。

18.Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation

标题:通过主动检索增强缓解大型视觉语言模型中的幻觉

author:Xiaoye Qu, Qiyuan Chen, Wei Wei, Jishuo Sun, Jianfeng Dong

date Time:2024-08-01

paper pdf:http://arxiv.org/pdf/2408.00555v1

摘要：
尽管大型视觉语言模型（LVLMs）在图像理解方面具有非凡的能力，但这些模型经常会产生似是而非、与事实不符的反应，这种现象被称为幻觉。最近，在大型语言模型（LLMs）中，通过检索外部知识资源中的信息来增强 LLMs 已被证明是缓解幻觉的一种有前途的解决方案。受这一研究空白和反直觉现象的启发，我们引入了一个新颖的框架–主动检索-增强大型视觉语言模型（ARA），专门用于通过以下三个关键维度来解决幻觉问题：(i) 根据图像固有的层次结构来剖析检索目标。(ii) 确定最有效的检索方法并筛选出可靠的检索结果。(iii) 确定检索过程的时间，使其与低确定性事件相吻合，同时避免在高确定性事件期间进行不必要的检索。为了评估我们提出的 ARA 模型在减少幻觉方面的能力，我们在四个基准中使用了三个广泛使用的 LVLM 模型（LLaVA-1.5、Qwen-VL 和 mPLUG-Owl2）。我们的经验观察表明，通过利用合适的检索机制并合理安排检索时间，我们可以有效缓解幻觉问题。我们希望这项研究能为如何调整 LVLM 的检索增强提供更深入的见解，从而以更有效的检索和最少的检索次数减少幻觉。

19.Mitigating Multilingual Hallucination in Large Vision-Language Models

标题:缓解大型视觉语言模型中的多语言幻觉

author:Xiaoye Qu, Mingyang Song, Wei Wei, Jianfeng Dong, Yu Cheng

date Time:2024-08-01

paper pdf:http://arxiv.org/pdf/2408.00550v1

摘要：
虽然大型视觉语言模型（LVLMs）在各种任务中表现出了非凡的能力，但它们也存在幻觉问题，即在输入图像-查询对的情况下，模型会生成似是而非的答案。当以非英语语言查询图像时，这种幻觉现象会更加严重，而现有的 LVLMs 减少幻觉的方法只考虑了英语场景。在本文中，我们首次尝试减轻 LVLMs 中这一重要的多语言幻觉现象。通过深入的实验分析，我们发现 LVLMs 中的多语言幻听是一个系统性问题，可能源于多语言能力的缺陷或多模态能力的不足。为此，我们提出了一个适用于 LVLMs 的两阶段多语种幻觉消除（MHR）框架，旨在提高高资源语言和低资源语言的抗幻觉能力。我们充分发挥了 LVLM 的固有功能，提出了一种新颖的跨语言对齐方法，该方法可为每个图像查询输入生成多个响应，然后为每种语言识别出可识别幻觉的数据对，而不是依赖于多语言资源的复杂人工注释。这些数据对最终被用于直接偏好优化，以促使 LVLM 倾向于非幻觉响应。实验结果表明，我们的 MHR 大幅减少了 LVLM 的幻觉生成。值得注意的是，在我们扩展的多语言 POPE 基准上，我们的框架在 13 种不同语言中的准确率平均提高了 19.0%。我们的代码和模型权重见 https://github.com/ssmisya/MHR。

小小帅AIGC

关注

17
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.08.01-2024.08.05

虽然可以轻松在线访问预训练编码器，快速构建下游机器学习（ML）服务，但人们设计了各种攻击来破坏这些编码器的安全性和隐私性。虽然大多数攻击针对的是上游侧的编码器，但编码器在部署到下游机器学习服务中时如何受到威胁仍是未知数。本文揭示了一种新的漏洞：预训练编码器推理（PEI）攻击，这种攻击会对隐藏在下游 ML 服务背后的编码器造成隐私威胁。只需提供对目标下游服务和一组候选编码器的 API 访问，PEI 攻击就能根据候选编码器推断出目标服务秘密使用的编码器。
复制链接

扫一扫

专栏目录