AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.10-2024.07.15

最新推荐文章于 2025-05-07 10:39:57 发布

小小帅AIGC

最新推荐文章于 2025-05-07 10:39:57 发布

阅读量973

点赞数 25

分类专栏： VLM论文时报文章标签：人工智能语言模型计算机视觉大语言模型视觉语言模型 VLM

本文链接：https://blog.csdn.net/weixin_44362044/article/details/140448988

版权

VLM论文时报专栏收录该内容

50 篇文章

订阅专栏

文章目录～

1.Pronunciation Assessment with Multi-modal Large Language Models
2.Open Vocabulary Multi-Label Video Classification
3.LAPT: Label-driven Automated Prompt Tuning for OOD Detection with Vision-Language Models
4.Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification
5.Extracting Training Data from Document-Based VQA Models
6.SEED-Story: Multimodal Long Story Generation with Large Language Model
7.Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement
8.DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception
9.Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation
10.AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization
11.Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding
12.Tuning Vision-Language Models with Candidate Labels by Prompt Alignment
13.MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis
14.Zero-Shot Class Unlearning in CLIP with Synthetic Samples
15.How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?
16.Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation
17.A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends

1.Pronunciation Assessment with Multi-modal Large Language Models

标题:利用多模态大型语言模型进行发音评估

author:Kaiqi Fu, Linkai Peng, Nan Yang, Shuran Zhou

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09209v1

摘要：
大语言模型（LLMs）以其强大的会话能力而闻名，在教育领域，特别是在语言学习的自动智能教学系统中，被公认为是卓越的工具。在本文中，我们提出了一种基于 LLMs 的评分系统，其动机是 LLMs 对文本相关评分任务的积极影响。具体来说，语音编码器首先将学习者的语音映射为上下文特征。然后，适配器层转换这些特征，使之与潜在空间中的文本嵌入相一致。评估任务特定的前缀和提示文本被嵌入并与模态适配器层生成的特征串联起来，从而使 LLM 能够预测准确度和流利度得分。我们的实验表明，在 Speechocean762 数据集上，与基线相比，所提出的评分系统取得了具有竞争力的结果。此外，我们还进行了一项消融研究，以更好地了解提示文本和训练策略在拟议评分系统中的贡献。

2.Open Vocabulary Multi-Label Video Classification

标题:开放式词汇多标签视频分类

author:Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi

publish:Accepted at ECCV 2024

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09073v1

摘要：
预先训练的视觉语言模型（VLM）使开放词汇计算机视觉任务（如图像分类、物体检测和图像分割）取得了重大进展。最近的一些研究重点是将 VLM 扩展到视频中的开放词汇单标签动作分类。然而，以往的方法在视频整体理解方面存在不足，这就要求在开放词汇环境下，能够同时识别视频中的多个动作和实体（如物体）。我们将这一问题表述为开放词汇多标签视频分类，并提出了一种调整预训练 VLM（如 CLIP）的方法来解决这一任务。我们利用大型语言模型（LLM）为 VLM 提供有关类标签的语义指导，从而提高其开放词汇性能，这有两个关键贡献。首先，我们提出了一种端到端可训练架构，该架构通过学习促使 LLM 为 CLIP 文本编码器生成软属性，从而使其能够识别新的类别。其次，我们在 CLIP 的视觉编码器中集成了一个时间建模模块，以有效地对视频概念的时空动态进行建模，并提出了一种新颖的正则化微调技术，以确保在视频领域实现强大的开放词汇分类性能。我们进行了大量实验，在多个基准数据集上展示了我们方法的功效。

3.LAPT: Label-driven Automated Prompt Tuning for OOD Detection with Vision-Language Models

标题:LAPT：利用视觉语言模型进行 OOD 检测的标签驱动自动提示调整

author:Yabin Zhang, Wenjie Zhu, Chenhang He, Lei Zhang

publish:ECCV2024; Codes and Supp. are available at:
https://github.com/YBZh/LAPT

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.08966v1

摘要：
分布偏离（OOD）检测对模型的可靠性至关重要，因为它可以识别未知类别的样本，减少意外输入造成的错误。通过整合多模态信息，视觉语言模型（VLM）（如 CLIP）正在成为 OOD 检测的强大工具。然而，这类系统的实际应用受到人工提示工程的挑战，因为人工提示工程需要领域专业知识，而且对语言的细微差别非常敏感。在本文中，我们介绍了标签驱动的自动提示调整（LAPT），这是一种新颖的 OOD 检测方法，可减少对人工提示工程的需求。我们开发的分布感知提示具有分布内（ID）类名和自动挖掘的负面标签。通过图像合成和检索方法自主收集与这些类别标签相关联的训练样本，从而无需人工即可进行提示学习。我们利用简单的交叉熵损失进行及时优化，并采用跨模式和跨分布混合策略，以分别减少图像噪声和探索分布之间的中间空间。LAPT 框架可自主运行，只需输入 ID 类别名称，无需人工干预。通过大量实验，LAPT 的性能始终优于人工制作的提示，为 OOD 检测设定了新标准。此外，LAPT不仅提高了ID和OOD样本的区分度，还提高了ID分类的准确性，并增强了对协变量变化的泛化鲁棒性，从而在具有挑战性的全谱OOD检测任务中表现出色。代码见 \url{https://github.com/YBZh/LAPT}。

4.Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification

标题:图像分类中视觉语言基础模型的数据自适应回溯

author:Wenshuo Peng, Kaipeng Zhang, Yue Yang, Hao Zhang, Yu Qiao

publish:9 pages,4 figures

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08787v1

摘要：
视觉语言基础模型使用适应方法在大量下游计算机视觉任务中取得了令人难以置信的成功。然而，由于获取预训练数据集的成本较高，数据中存在大量图像与文本相关性较弱的配对。我们称之为弱配对样本。由于这些弱配对样本的局限性，预训练模型无法从预训练数据中挖掘出所有知识。现有的适应方法没有考虑缺失的知识，这可能会导致下游任务的关键任务相关知识被忽略。为了解决这个问题，我们提出了一种新的适应框架，称为数据自适应回溯（DAT）。具体来说，我们利用一种基于零镜头的方法，从预训练数据中提取与下游任务最相关的子集，以启用下游任务。此外，我们还采用了一种基于伪标签的半监督技术来重复使用预训练图像，并采用了一种视觉语言对比学习方法来解决半监督学习中的确认偏差问题。我们进行了大量实验，结果表明，与传统的适应方法相比，我们提出的 DAT 方法有效地提高了各种基准数据集的性能。

5.Extracting Training Data from Document-Based VQA Models

标题:从基于文档的 VQA 模型中提取训练数据

author:Francesco Pinto, Nathalie Rauschmayr, Florian Tramèr, Philip Torr, Federico Tombari

publish:ICML 2024

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08707v1

摘要：
视觉语言模型（VLM）在基于文档的视觉问题解答（即回答以图像形式提供的输入文档内容的询问）方面取得了显著进展。在这项工作中，我们展示了这些模型可以记忆训练样本的回答，并在相关视觉信息被移除后仍能重复这些回答。这包括在训练集中重复一次的个人身份信息 (PII)，表明这些模型可能会泄露记忆中的敏感信息，从而带来隐私风险。我们在受控实验中对信息的可提取性进行了定量测量，并区分了信息的可提取性是源于泛化能力还是源于记忆。我们还进一步研究了影响多种最先进模型记忆的因素，并提出了一种有效的启发式对策，从经验上防止了 PII 的可提取性。

6.SEED-Story: Multimodal Long Story Generation with Large Language Model

标题:SEED-Story：利用大型语言模型生成多模态长篇故事

author:Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen

publish:Our models, codes and datasets are released in
https://github.com/TencentARC/SEED-Story

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08683v1

摘要：
随着图像生成和开放式文本生成技术的显著进步，交错图像文本内容的创建已成为一个越来越引人关注的领域。多模态故事生成的特点是以交错的方式生成叙事性文本和生动的图像，它已成为一项具有广泛应用价值的实用任务。然而，这项任务也带来了巨大的挑战，因为它需要理解文本和图像之间复杂的相互作用，并能够生成连贯的、与上下文相关的文本和视觉效果的长序列。在这项工作中，我们提出了 SEED-Story，这是一种利用多模态大语言模型（MLLM）生成扩展多模态故事的新方法。我们的模型建立在多模态大语言模型强大的理解能力基础之上，可以预测文本标记和视觉标记，然后用经过调整的视觉去标记器进行处理，生成具有一致字符和风格的图像。我们进一步提出了多模态注意力汇机制，从而能够以高效的自回归方式生成多达 25 个序列的故事（只有 10 个序列用于训练）。此外，我们还提出了一个名为 StoryStream 的大规模、高分辨率数据集，用于训练我们的模型，并对多模态故事生成任务的各个方面进行定量评估。

7.Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement

标题:为自监督远程生理测量建立视觉语言模型

author:Zijie Yue, Miaojing Shi, Hanli Wang, Shuai Ding, Qijun Chen, Shanlin Yang

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08507v1

摘要：
基于面部视频的远程生理测量是以非接触方式检测人体生命体征（如心率、呼吸频率）的一个前景广阔的研究领域。传统方法大多是监督学习，需要大量的面部视频和同步记录的光电血压（PPG）信号。为了解决这个问题，自监督学习最近受到了关注；但由于缺乏地面真实的 PPG 信号，其性能受到了限制。在本文中，我们提出了一个新颖的自监督框架，成功地将流行的视觉语言模型（VLM）整合到远程生理测量任务中。给定一个面部视频，我们首先用不同的 rPPG 信号频率增强其正反视频样本。接下来，我们引入了一种以频率为导向的视觉-文本配对生成方法，即从正反样本中精心绘制对比时空图，并设计适当的文本提示来描述它们的相对信号频率比。我们采用预先训练好的 VLM 来提取这些已形成的视觉-文本对的特征，然后估算 rPPG 信号。我们开发了一系列生成和对比学习机制来优化 VLM，包括文本引导的视觉地图重建任务、视觉-文本对比学习任务以及频率对比和排序任务。总之，我们的方法首次调整了 VLM，以消化和调整视觉和文本模式中的频率相关知识。在四个基准数据集上进行的广泛实验表明，该方法明显优于最先进的自监督方法。

8.DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

标题:DenseFusion-1M：融合视觉专家，实现全面的多模态感知

author:Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08303v1

摘要：
现有的多模态大语言模型（MLLM）越来越强调对各种视觉元素的复杂理解，包括多个对象、文本信息和空间关系。这些模型在综合视觉感知方面的发展取决于能否获得高质量的图像-文本数据集，这些数据集能提供多种视觉元素和完整的图像描述。然而，这种超详细数据集的稀缺性目前阻碍了 MLLM 社区的发展。这一瓶颈源于当前字幕引擎的感知能力有限，无法提供完整准确的注释。为了促进 MLLM 在综合视觉感知方面的前沿研究，我们提出了感知融合（Perceptual Fusion）方案，使用低成本但高效的标题引擎来提供完整准确的图像描述。具体来说，Perceptual Fusion 整合了不同的感知专家作为图像先验，提供明确的视觉元素信息，并采用高效的 MLLM 作为中心枢纽，模仿高级 MLLM 的感知能力。我们从未经整理的 LAION 数据集中精心挑选了 100 万张极具代表性的图像，并使用我们的引擎生成密集描述，我们称之为 DenseFusion-1M。广泛的实验验证了我们的引擎优于同类引擎，由此产生的数据集显著提高了现有 MLLM 在各种视觉语言基准测试中的感知和认知能力，尤其是在输入高分辨率图像时。数据集和代码可通过 https://github.com/baaivision/DenseFusion 公开获取。

9.Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation

标题:探索 CLIP 在免培训开放词汇语义分割方面的潜力

author:Tong Shao, Zhuotao Tian, Hang Zhao, Jingyong Su

publish:ECCV24 accepted

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08268v1

摘要：
CLIP 作为一种视觉语言模型，以其零镜头功能大大推进了开放词汇语义分割（OVSS）技术的发展。尽管CLIP取得了成功，但其在OVSS中的应用却面临着挑战，原因是其初始图像级配准训练影响了其在需要详细局部上下文的任务中的表现。我们的研究深入探讨了 CLIP 的 [CLS] 标记对补丁特征相关性的影响，发现 "全局 "补丁占主导地位，阻碍了局部特征的辨别。为了克服这一问题，我们提出了 CLIPtrase，这是一种新颖的免训练语义分割策略，通过重新校准补丁间的自相关性来增强局部特征意识。实验表明，我们在 9 个分割基准上平均领先 CLIP 22.3%，优于现有的最先进的免训练方法。代码可在以下网站公开：https://github.com/leaves162/CLIPtrase。

10.AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization

标题:AddressCLIP：为全城图像地址定位建立视觉语言模型

author:Shixiong Xu, Chenghao Zhang, Lubin Fan, Gaofeng Meng, Shiming Xiang, Jieping Ye

publish:Accepted at ECCV 2024

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08156v1

摘要：
在本研究中，我们提出了一个由社交媒体和新闻摄影引发的新问题，即图像地址定位（IAL），旨在预测图像拍摄地的可读文本地址。现有的两阶段方法涉及预测地理坐标并将其转换为人类可读地址，这可能会导致模糊性和资源密集型。与此相反，我们提出了一个名为 AddressCLIP 的端到端框架来解决这个语义更丰富的问题，它由两个关键要素组成：i) 图像-文本对齐，通过对比学习将图像与地址和场景说明对齐；ii) 图像-地理匹配，通过流形学习用空间距离约束图像特征。此外，我们还专门针对 IAL 问题建立了三个不同规模的数据集，分别来自匹兹堡和旧金山。实验证明，我们的方法在提出的数据集上取得了令人信服的性能，并且优于视觉语言模型的代表性迁移学习方法。此外，广泛的消融和可视化也证明了所提方法的有效性。数据集和源代码可在 https://github.com/xsx1001/AddressCLIP 上获取。

11.Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding

标题:超图多模态大语言模型：利用脑电图和眼动跟踪模式评估视频理解的异质反应

author:Minghui Wu, Chenxu Zhao, Anyang Su, Donglin Di, Tianyu Fu, Da An, Min He, Ya Gao, Meng Ma, Kun Yan, Ping Wang

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08150v1

摘要：
对视频创意和内容的理解往往因人而异，不同年龄、经历和性别的人对焦点和认知水平的理解也不尽相同。目前，这方面的研究还很缺乏，现有的大多数基准都存在几个缺点：1）模式和答案数量有限，长度受限；2）视频内容和场景过于单调，传递的寓意和情感过于简单。为了缩小与现实世界应用的差距，我们引入了一个大规模的主观回应视频数据集，即 SRI-ADV。具体来说，我们收集了不同人群在观看相同视频内容时脑电图（EEG）和眼球跟踪区域的真实变化。利用这个多模态数据集，我们开发了任务和协议来分析和评估不同用户对视频内容的认知理解程度。在设计数据集的同时，我们还设计了一个多模态、大尺度、语言、文本图谱模型（HMLLM）来探索不同人口统计学、视频元素、脑电图和眼动追踪指标之间的关联。HMLLM 可以弥合丰富模态之间的语义差距，并整合不同模态之外的信息以进行逻辑推理。在 SRI-ADV 和其他基于视频的生成性能基准上进行的广泛实验评估证明了我们方法的有效性。代码和数据集将在\url{https://github.com/suay1113/HMLLM}上发布。

12.Tuning Vision-Language Models with Candidate Labels by Prompt Alignment

标题:通过提示对齐调整带有候选标签的视觉语言模型

author:Zhifang Zhang, Beibei Li

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07638v2

摘要：
视觉语言模型（VLM）可以从大规模的图像-文本对训练数据集中学习高质量的表征。提示学习是对视觉语言模型进行微调以适应下游任务的一种流行方法。尽管性能令人满意，但提示学习的一个主要局限是需要标记数据。在现实世界中，由于数据隐私或敏感性问题，我们可能只能获得候选标签（其中包含真实标签），而不是真实标签。在本文中，我们首次研究了带候选标签的 VLM 即时学习。我们通过经验证明，在处理候选标签时，及时学习比其他微调方法更有优势。然而，当标签模糊性增加时，它的性能就会下降。为了提高其鲁棒性，我们提出了一个简单而有效的框架，可以更好地利用 VLM 的先验知识来指导候选标签的学习过程。具体来说，我们的框架通过将模型输出与可学习提示和手工提示共同预测的混合类后验相一致来消除候选标签。此外，我们的框架还可以配备各种现成的训练目标，用于候选标签的学习，从而进一步提高其性能。广泛的实验证明了我们提出的框架的有效性。

13.MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis

标题:MARS：用于细粒度文本到图像合成的自回归混合模型

author:Wanggui He, Siming Fu, Mushui Liu, Xierui Wang, Wenyi Xiao, Fangxun Shu, Yi Wang, Lei Zhang, Zhelun Yu, Haoyuan Li, Ziwei Huang, LeiLei Gan, Hao Jiang

publish:14 pages, 9 figures

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07614v2

摘要：
自动回归模型在语言生成领域取得了重大进展，但在图像合成领域的表现却无法与扩散模型相提并论。在这项工作中，我们介绍了 MARS，这是一种用于 T2I 生成的新型框架，其中包含一个专门设计的语义视觉语言集成专家（SemVIE）。这一创新组件通过独立处理语言和视觉信息来整合预先训练的 LLM，在微调视觉组件的同时冻结文本组件。这种方法既保留了 LLM 的 NLP 能力，又赋予了它们卓越的视觉理解能力。在预训练 Qwen-7B 的强大基础上，MARS 凭借其与中英文提示相对应的双语生成能力以及联合生成图像和文本的能力脱颖而出。该框架的灵活性使其能够适应任何任务。此外，MARS 还采用了多阶段训练策略，首先通过互补的双向任务建立稳健的图像-文本对齐，然后集中精力完善 T2I 生成过程，显著增强文本-图像同步性和图像细节的粒度。值得注意的是，MARS 所需的 GPU 天数仅为 SD1.5 的 9%，但却在各种基准测试中取得了不俗的成绩，这说明了其训练效率以及在各种应用中快速部署的潜力。

14.Zero-Shot Class Unlearning in CLIP with Synthetic Samples

标题:利用合成样本在 CLIP 中进行零点类学习

author:A. Kravets, V. Namboodiri

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07485v1

摘要：
机器学习是一个重要的研究领域。其驱动力来自于从模型中移除敏感信息的需求，以保障个人在 GDPR 等严格法规下被遗忘的权利。在这项工作中，我们将重点放在 CLIP 中的解除学习上，这是一个使用对比损失法在海量图像-文本对数据集上训练的视觉-语言双编码器模型。为了实现 “遗忘”，我们将 Lipschitz 正则化的应用扩展到了 CLIP 的多模态环境中。具体来说，我们确保与要遗忘的类别相关的视觉嵌入和文本嵌入相对于引入该类别样本的扰动都变得平滑。此外，重要的是，我们通过最大化目标类别的梯度上升生成合成样本，从而消除了真实遗忘数据的必要性。我们的遗忘程序是迭代式的，即跟踪合成遗忘集上的准确率，并在准确率低于所选阈值时停止。我们采用基于平均绝对梯度值的选择性层更新策略，以减少过度遗忘。我们在几个标准数据集上验证了我们的方法，并提供了详尽的消融分析以及与之前工作的比较。

15.How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

标题:如何让交叉编码器成为高效图像文本检索的好老师？

author:Yuxin Chen, Zongyang Ma, Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Bing Li, Junfu Pu, Ying Shan, Xiaojuan Qi, Weiming Hu

publish:Accepted by CVPR 2024

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07479v1

摘要：
主流的双编码器模型可实现高效的图像-文本检索，但准确性有限，而交叉编码器模型在牺牲效率的同时可提供更高的准确性。从交叉编码器到双编码器的跨模态匹配知识的提炼为利用它们的优势提供了一种自然的方法。因此，我们研究了以下有价值的问题：如何使交叉编码器成为双编码器的好老师？我们的研究结果有三个方面：（1）交叉编码器的跨模态相似度得分分布更为集中，而双编码器的结果则接近正态，这使得香草对数蒸馏的效果大打折扣。(2)只有硬否定之间的相对顺序能传递有效知识，而易否定之间的顺序信息意义不大。(3)保持蒸馏损失和双编码器训练损失之间的协调有利于知识转移。基于这些发现，我们提出了一种新颖的对比部分排序蒸馏（CPRD）方法，该方法通过对比学习来实现模仿硬阴性样本之间相对顺序的目标。这种方法与双编码器的训练相协调，能有效地将有效知识从交叉编码器转移到双编码器。在图像-文本检索和排序任务中进行的大量实验表明，我们的方法超越了其他蒸馏方法，并显著提高了双编码器的准确性。

16.Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation

标题:开放词汇视频实例分割的统一嵌入对齐

author:Hao Fang, Peng Wu, Yawei Li, Xinxin Zhang, Xiankai Lu

publish:ECCV 2024

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07427v2

摘要：
开放词汇视频实例分割（VIS）因其分割和跟踪任意物体的能力而日益受到关注。然而，最近的开放词汇 VIS 尝试结果并不令人满意，尤其是在新类别的泛化能力方面。我们发现，VLM 特征（如 CLIP）与实例查询之间的领域差距以及未充分利用时间一致性是两个主要原因。为了缓解这些问题，我们设计并训练了一种名为 OVFormer 的新型开放词汇 VIS 基线。OVFormer 利用轻量级模块在查询嵌入和 CLIP 图像嵌入之间进行统一的嵌入对齐，以弥补领域差距。与以往基于图像的训练方法不同，我们进行了基于视频的模型训练，并部署了半在线推理方案，以充分挖掘视频中的时间一致性。在没有任何附加功能的情况下，OVFormer 利用 ResNet-50 主干网在 LV-VIS 上实现了 21.9 mAP，比之前最先进的性能高出 7.7。在一些Close-Vocabulary VIS数据集上的广泛实验也证明了OVFormer强大的零点泛化能力（在YouTube-VIS 2019上+ 7.6 mAP，在OVIS上+ 3.9 mAP）。代码见 https://github.com/fanghaook/OVFormer。

17.A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends

标题:大型视觉语言模型攻击调查：资源、进展和未来趋势

author:Daizong Liu, Mingyu Yang, Xiaoye Qu, Pan Zhou, Yu Cheng, Wei Hu

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07403v2

摘要：
近年来，随着大型模型的长足发展，大型视觉语言模型（LVLMs）在广泛的多模态理解和推理任务中展现出了非凡的能力。与传统的大型语言模型（LLMs）相比，LVLMs 具有巨大的潜力和挑战，因为它更接近多资源的真实世界应用和多模态处理的复杂性。然而，对 LVLMs 的脆弱性的探索相对不足，这给日常使用带来了潜在的安全风险。在本文中，我们全面回顾了现有的各种形式的 LVLM 攻击。具体来说，我们首先介绍了针对 LVLM 的攻击的背景，包括攻击的初级阶段、攻击挑战和攻击资源。然后，我们系统回顾了 LVLM 攻击方法的发展，如操纵模型输出的对抗攻击、利用模型漏洞进行未授权操作的越狱攻击、设计提示类型和模式的提示注入攻击以及影响模型训练的数据中毒攻击。最后，我们讨论了未来有前景的研究方向。我们相信，我们的调查能让我们深入了解 LVLM 漏洞的现状，激励更多研究人员探索和缓解 LVLM 开发中潜在的安全问题。有关 LVLM 攻击的最新论文将持续收录在 https://github.com/liudaizong/Awesome-LVLM-Attack 中。