AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.25-2024.09.30

文章目录~

1.Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation

标题:利用分层知识增强技术进行程序感知手术视频语言预培训

author:Kun Yuan, Vinkle Srivastav, Nassir Navab, Nicolas Padoy

publish:Accepted at the 38th Conference on Neural Information Processing
Systems (NeurIPS 2024) Main Track

date Time:2024-09-30

paper pdf:http://arxiv.org/pdf/2410.00263v1

摘要
由于知识领域的差距和多模态数据的稀缺,外科手术视频语言预培训(VLP)面临着独特的挑战。本研究旨在通过解决手术讲座视频中的文本信息丢失问题和手术 VLP 的时空挑战来弥补这一差距。我们提出了一种分层知识增强方法和一种新颖的程序编码手术知识增强视频语言预训练(PeskaVLP)框架来解决这些问题。知识增强使用大型语言模型(LLM)来完善和丰富手术概念,从而提供全面的语言监督并降低过拟合风险。PeskaVLP 将语言监督与视觉自监督相结合,构建硬负样本,并采用基于动态时间扭曲(DTW)的损失函数来有效理解跨模态程序对齐。在多个公共手术场景理解和跨模态检索数据集上进行的广泛实验表明,我们提出的方法显著提高了零镜头转移性能,并为进一步推进手术场景理解提供了通用的视觉表示方法。

2.Characterizing and Efficiently Accelerating Multimodal Generation Model Inference

标题:描述并高效加速多模态生成模型推理

author:Yejin Lee, Anna Sun, Basil Hosmer, Bilge Acun, Can Balioglu, Changhan Wang, Charles David Hernandez, Christian Puhrsch, Daniel Haziza, Driss Guessous, Francisco Massa, Jacob Kahn, Jeffrey Wan, Jeremy Reizenstein, Jiaqi Zhai, Joe Isaacson, Joel Schlosser, Juan Pino, Kaushik Ram Sadagopan, Leonid Shamis, Linjian Ma, Min-Jae Hwang, Mingda Chen, Mostafa Elhoushi, Pedro Rodriguez, Ram Pasunuru, Scott Yih, Sravya Popuri, Xing Liu, Carole-Jean Wu

publish:13 pages including references. 8 Figures. Under review to HPCA 2025
Industry Track

date Time:2024-09-30

paper pdf:http://arxiv.org/pdf/2410.00215v1

摘要
生成式人工智能(AI)技术正在彻底改变计算机行业。它不仅将应用范围扩大到各个领域,还带来了新的系统设计和优化机会。该技术能够理解并响应多种模式。然而,这种先进的能力目前对系统资源的需求很大。要将生成式人工智能能力持续扩展到全球数十亿用户,推理必须快速高效。本文通过在真实系统上描述一系列新兴的多模态生成模型,指出了关键的系统设计和优化机会。自动回归令牌生成是一个关键的延迟性能瓶颈,通常由 GPU 空闲时间主导。除了生成式人工智能模型的内存密集型注意力外,由于基于 Transformer 模型中的前馈网络,线性操作也构成了显著的推理延迟。我们证明,从应用到系统软件和硬件,最先进的优化杠杆设定了 3.88 倍的基准。

3.Do Vision-Language Models Really Understand Visual Language?

标题:视觉语言模型真的能理解视觉语言吗?

author:Buse Giledereli, Yifan Hou, Yilei Tu, Mrinmaya Sachan

date Time:2024-09-30

paper pdf:http://arxiv.org/pdf/2410.00193v1

摘要
视觉语言是一种通过符号、形状和空间排列来传递信息的交流系统。图表是视觉语言的一个典型例子,它以图像的形式描述复杂的概念及其关系。图表的符号性质给建立能够理解图表的模型带来了巨大挑战。然而,最近的研究似乎表明,大型视觉语言模型(LVLM)甚至可以处理涉及图表的复杂推理任务。在本文中,我们通过开发一套综合测试套件来评估 LVLM 的图表理解能力,从而对这一现象进行研究。我们的测试套件使用了各种问题,重点是概念实体及其与一组合成图和多个领域的真实图之间的关系,以评估模型的识别和推理能力。我们对三种 LVLM(GPT-4V、GPT-4o 和 Gemini)的评估表明,虽然这些模型可以准确识别实体并进行推理,但它们理解关系的能力却明显有限。进一步的测试表明,这些模型在图表理解方面的出色表现主要源于它们利用背景知识作为识别和推理关系信息的捷径。因此,我们得出结论:LVLMs 真正理解图表的能力有限,它们在图表推理方面的出色表现只是其他干扰因素(如模型中的背景知识)造成的假象。

4.GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction

标题:GTransPDM:用于行人过街意向预测的位置解耦嵌入式图形变换器

author:Chen Xie, Ciyun Lin, Xiaoyu Zheng, Bowen Gong, Dayong Wu, Antonio M. López

date Time:2024-09-30

paper pdf:http://arxiv.org/pdf/2409.20223v1

摘要
了解和预测行人过马路的行为意图对自动驾驶汽车的驾驶安全至关重要。然而,在使用有希望的图像或环境背景掩码提取各种因素进行时间序列网络建模时,会出现一些挑战,导致预处理错误或效率降低。通常情况下,车载摄像头捕捉到的行人位置往往会失真,无法准确反映行人的实际动作。为了解决这些问题,我们开发了 GTransPDM(带有位置解耦模块的嵌入式图形变换器),利用多模态特征进行行人过街意图预测。首先,提出了一个位置解耦模块,用于分解行人横向移动并模拟图像视图中的深度变化。然后,设计了一个图嵌入变换器来捕捉人体姿势骨架的时空动态,将位置、骨架和自我-车辆运动等重要因素整合在一起。实验结果表明,所提出的方法在 PIE 数据集上达到了 92% 的准确率,在 JAAD 数据集上达到了 87% 的准确率,处理速度为 0.05ms。相比之下,该方法优于最先进的方法。

5.Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval

标题:多模态 LLM 增强型跨语言跨模态检索

author:Yabing Wang, Le Wang, Qiang Zhou, Zhibin Wang, Hao Li, Gang Hua, Wei Tang

publish:Accepted by ACM Multimedia

date Time:2024-09-30

paper pdf:http://arxiv.org/pdf/2409.19961v1

摘要
跨语言跨模态检索(CCR)旨在根据非英语查询检索视觉相关内容,而无需在训练过程中依赖人类标记的跨模态数据对。一种流行的方法是利用机器翻译(MT)创建伪平行数据对,在视觉数据和非英语文本数据之间建立对应关系。然而,由于视觉和文本之间存在巨大的语义差距,以及预先训练的编码器和数据噪声导致的非英语表征质量较低,对齐它们的表征构成了挑战。为了克服这些挑战,我们提出了 LECCR,一种结合了多模态大语言模型(MLLM)的新颖解决方案,以改善视觉表征与非英语表征之间的对齐。具体来说,我们首先利用 MLLM 生成详细的视觉内容描述,并将其聚合到包含不同语义的多视图语义槽中。然后,我们将这些语义槽作为内部特征,并利用它们与视觉特征进行交互。通过这种方式,我们增强了视觉特征内部的语义信息,缩小了模态之间的语义差距,并为随后的多级匹配生成了本地视觉语义。此外,为了进一步加强视觉特征与非英语特征之间的匹配,我们引入了英语指导下的软化匹配。这种方法能在视觉特征和非英语特征之间提供更全面、更可靠的模态间对应。在四个 CCR 基准(Multi30K、MSCOCO、VATEX 和 MSR-VTT-CN)上进行的广泛实验证明了我们提出的方法的有效性。代码:\url{https://github.com/LiJiaBei-7/leccr}.

6.Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels

标题:实现无语义标签的开放词汇语义分割

author:Heeseong Shin, Chaehyun Kim, Sunghwan Hong, Seokju Cho, Anurag Arnab, Paul Hongsuck Seo, Seungryong Kim

publish:To appear at NeurIPS 2024. Project page is available at
https://cvlab-kaist.github.io/PixelCLIP

date Time:2024-09-30

paper pdf:http://arxiv.org/pdf/2409.19846v1

摘要
像 CLIP 这样的大规模视觉语言模型在图像级任务中表现出了令人印象深刻的开放式词汇能力,在识别哪些物体存在方面表现出色。然而,它们在像素级识别任务(如语义分割)中却显得力不从心,因为这些任务还需要了解物体的位置。在这项工作中,我们提出了一种名为 PixelCLIP 的新方法,通过引导模型确定位置,使 CLIP 图像编码器适应像素级理解。为了应对利用无语义标签的掩码所带来的挑战,我们设计了一种在线聚类算法,利用可学习的类名获取一般语义概念。与 CLIP 相比,PixelCLIP 的性能有了显著提高,在开放词汇语义分割方面,与字幕监督方法相比,PixelCLIP 的结果也很有竞争力。项目网页:https://cvlab-kaist.github.io/PixelCLIP

7.Textual Training for the Hassle-Free Removal of Unwanted Visual Data

标题:无忧去除多余视觉数据的文本培训

author:Saehyung Lee, Jisoo Mok, Sangha Park, Yongho Shin, Dahuin Jung, Sungroh Yoon

publish:NeurIPS 2024

date Time:2024-09-30

paper pdf:http://arxiv.org/pdf/2409.19840v1

摘要
在我们的研究中,我们探索了检测潜伏在视觉数据集中的不需要内容的方法。我们提供的理论分析表明,仅使用文本数据就能获得能够成功分割视觉数据的模型。在此分析基础上,我们提出了无障碍文本训练(HFTT),这是一种简化的方法,只需使用合成文本数据和预先训练好的视觉语言模型,就能获得不良视觉内容的检测器。HFTT 采用创新的目标函数,大大减少了人工参与数据标注的必要性。此外,HFTT 还采用了一种巧妙的文本数据合成方法,能有效地将未知视觉数据分布整合到训练过程中,而无需额外成本。HFTT 的独特性将其实用性扩展到传统的分布外检测之外,使其适用于处理更抽象概念的任务。我们将通过分布外检测和仇恨图像检测实验来补充我们的分析。我们的代码可在 https://github.com/Saehyung-Lee/HFTT

8.Multimodal Misinformation Detection by Learning from Synthetic Data with Multimodal LLMs

标题:利用多模态 LLM 从合成数据中学习多模态错误信息检测方法

author:Fengzhu Zeng, Wenqian Li, Wei Gao, Yan Pang

publish:EMNLP 2024 Findings

date Time:2024-09-29

paper pdf:http://arxiv.org/pdf/2409.19656v1

摘要
检测多模态错误信息,尤其是图像-文本对形式的错误信息至关重要。为训练检测器而获取大规模、高质量的真实世界事实检查数据集成本高昂,因此研究人员使用人工智能技术生成的合成数据集。然而,由于分布上的差距,在合成数据上训练的检测器在真实世界场景中的通用性仍不明确。为了解决这个问题,我们提出了从合成数据中学习检测真实世界多模态错误信息的方法,即通过两种匹配合成数据和真实世界数据分布的模型无关数据选择方法。实验表明,我们的方法提高了小型 MLLM(13B)在真实世界事实检查数据集上的性能,使其甚至超过了 GPT-4V~\cite{GPT-4V}。

9.Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method

标题:视觉语言基础模型的联合学习:理论分析与方法

author:Bikang Pan, Wei Huang, Ye Shi

date Time:2024-09-29

paper pdf:http://arxiv.org/pdf/2409.19610v1

摘要
将像 CLIP 这样的预训练视觉语言基础模型整合到联合学习中,以提高不同任务的泛化能力,已经引起了广泛关注。通常情况下,视觉语言模型的联合学习采用提示学习法,以降低通信和计算成本,即基于提示的联合学习。然而,目前对基于提示的联合学习性能的理论分析还很有限。在这项工作中,我们通过特征学习理论为基于提示的联合学习构建了一个理论分析框架。具体来说,我们监测了基于提示的联合学习中信号学习和噪声记忆的演化,证明可以通过任务相关系数与任务无关系数的比率来评估性能。此外,我们还将投资组合优化中的收益和风险与特征学习中的任务相关和任务无关项进行了类比。从投资组合优化中得到的启发是,将两个独立的资产组合在一起,既能保持收益,又能降低风险,因此我们引入了两个提示:全局提示和局部提示,以构建一个提示投资组合,从而在泛化和个性化之间取得平衡。因此,我们展示了及时组合的性能优势,并得出了最优混合系数。这些理论主张得到了实证实验的进一步支持。

10.MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation

标题:MedCLIP-SAMv2:实现通用文本驱动的医学图像分割

author:Taha Koleilat, Hojat Asgariandehkordi, Hassan Rivaz, Yiming Xiao

publish:10 pages, 2 figures, 6 tables

date Time:2024-09-28

paper pdf:http://arxiv.org/pdf/2409.19483v1

摘要
医学图像中解剖结构和病理区域的分割对于现代临床诊断、疾病研究和治疗规划至关重要。虽然基于深度学习的分割技术取得了重大进展,但其中许多方法在数据效率、通用性和交互性方面仍存在局限性。因此,开发需要较少标注数据集的精确分割方法仍然是医学图像分析领域的一项重大挑战。最近,CLIP 和 Segment-Anything-Model(SAM)等具有强大跨域表示能力的基础模型的引入,为交互式通用图像分割铺平了道路。然而,在医学影像数据高效分割方面,仍然需要进一步探索这些模型,这一点非常重要。在本文中,我们介绍了 MedCLIP-SAMv2,这是一个新颖的框架,它整合了 CLIP 和 SAM 模型,可在零镜头和弱监督设置下使用文本提示对临床扫描图像进行分割。我们的方法包括微调 BiomedCLIP 模型,使其采用新的解耦硬负噪对比度估计 (DHN-NCE) 损失,并利用多模态信息瓶颈 (M2IB) 创建视觉提示,以便在零扫描设置中从 SAM 生成分割掩码。我们还研究了在弱监督范式中使用零镜头分割标签,以进一步提高分割质量。在四种不同的分割任务和医学成像模式(乳腺肿瘤超声波、脑肿瘤核磁共振成像、肺部 X 光和肺部 CT)中进行的广泛测试表明,我们提出的框架具有很高的准确性。我们的代码见 https://github.com/HealthX-Lab/MedCLIP-SAMv2。

11.FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models

标题:FairPIVARA:减少和评估基于 CLIP 的多模态模型中的偏差

author:Diego A. B. Moreira, Alef Iury Ferreira, Gabriel Oliveira dos Santos, Luiz Pereira, João Medrado Gondim, Gustavo Bonil, Helena Maia, Nádia da Silva, Simone Tiemi Hashiguti, Jefersson A. dos Santos, Helio Pedrini, Sandra Avila

publish:14 pages, 10 figures. Accepted to 35th British Machine Vision
Conference (BMVC 2024), Workshop on Privacy, Fairness, Accountability and
Transparency in Computer Vision

date Time:2024-09-28

paper pdf:http://arxiv.org/pdf/2409.19474v1

摘要
尽管视觉语言模型取得了长足的进步,并得到了广泛的应用,但有关其伦理影响的研究却少之又少。这些模型通常需要大量的训练数据,这些数据通常来自匆忙审核的文本和图像数据集,从而导致数据集的高度不平衡和伦理问题。此外,最初以英语训练的模型经常会针对其他语言进行微调,例如 CLIP 模型,该模型可以通过更多数据进行扩展以增强能力,但也会增加新的偏差。CAPIVARA 是一种基于 CLIP 的模型,适用于葡萄牙语,在零拍任务中表现出色。在本文中,我们评估了视觉语言模型中四种不同类型的判别做法,并介绍了 FairPIVARA,这是一种通过移除特征嵌入中受影响最大的维度来减少判别做法的方法。FairPIVARA 的应用使观察到的偏差显著减少了 98%,同时促进了模型内更均衡的单词分布。我们的模型和代码见:https://github.com/hiaac-nlp/FairPIVARA。

12.Contrastive ground-level image and remote sensing pre-training improves representation learning for natural world imagery

标题:对比地面图像和遥感预训练提高了自然世界图像的表征学习能力

author:Andy V. Huynh, Lauren E. Gillespie, Jael Lopez-Saucedo, Claire Tang, Rohan Sikand, Moisés Expósito-Alonso

publish:Accepted to ECCV 2024

date Time:2024-09-28

paper pdf:http://arxiv.org/pdf/2409.19439v1

摘要
多模态图像-文本对比学习表明,可以跨模态学习联合表征。在这里,我们展示了如何利用图像数据的多视图对比学习来提高物种识别的下游细粒度分类性能,即使在一个视图缺失的情况下也是如此。我们提出了对比图像遥感预训练(CRISP) u n i c o d e x 2014 unicode{x2014} unicodex2014,这是一个用于自然界地面和空中图像表征学习的新的预训练任务 u n i c o d e x 2014 unicode{x2014} unicodex2014,并介绍了自然多视角(NMV),这是一个自然界图像数据集,包括加州生态多样性地区6000多种植物分类群的300多万张地面和空中图像对。NMV 数据集和相关资料可在 hf.co/datasets/andyvhuynh/NatureMultiView 网站上查阅。

13.X-Prompt: Multi-modal Visual Prompt for Video Object Segmentation

标题:X-Prompt:用于视频对象分割的多模式视觉提示

author:Pinxue Guo, Wanyun Li, Hao Huang, Lingyi Hong, Xinyu Zhou, Zhaoyu Chen, Jinglun Li, Kaixun Jiang, Wei Zhang, Wenqiang Zhang

publish:ACMMM’2024

date Time:2024-09-28

paper pdf:http://arxiv.org/pdf/2409.19342v1

摘要
多模态视频对象分割(VOS),包括 RGB-热、RGB-深度和 RGB-事件,因其能够应对传统 VOS 方法难以应对的挑战性场景(如极端光照、快速运动和背景干扰)而备受关注。现有的方法通常涉及设计特定的附加分支,并对每个任务的融合进行全参数微调。然而,这种模式不仅重复了研究工作,增加了硬件成本,而且在多模态注释数据有限的情况下,还存在模型崩溃的风险。在本文中,我们提出了一个名为 X-Prompt 的通用框架,适用于所有多模态视频对象分割任务,即 RGB+X。X-Prompt 框架首先使用 RGB 数据预训练视频对象分割基础模型,然后利用额外的提示模态使其适应数据有限的下游多模态任务。在 X-Prompt 框架内,我们引入了多模态视觉提示器(Multi-modal Visual Prompter,MVP),它允许使用各种模态提示基础模型,以精确分割对象。我们进一步提出了多模态适配专家(MAE),利用可插入的特定模态知识对基础模型进行适配,同时不影响泛化能力。为了评估 X-Prompt 框架的有效性,我们在 4 个基准的 3 个任务中进行了广泛的实验。所提出的通用 X-Prompt 框架始终优于完全微调范例,并实现了最先进的性能。代码:https://github.com/PinxueGuo/X-Prompt.git

14.UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception

标题:UniEmoX:跨模态语义引导的大规模通用场景情感感知预训练

author:Chuang Chen, Xiao Sun, Zhi Liu

publish:This work has been submitted to the IEEE for possible publication.
Copyright may be transferred without notice, after which this version may no
longer be accessible

date Time:2024-09-27

paper pdf:http://arxiv.org/pdf/2409.18877v2

摘要
视觉情绪分析在计算机视觉和心理学领域都具有重要的研究价值。然而,由于情绪感知的模糊性和数据场景的多样性,现有的视觉情绪分析方法存在通用性有限的问题。为了解决这个问题,我们推出了跨模态语义引导的大规模预训练框架 UniEmoX。心理学研究强调情感探索过程与个人及其环境之间的互动密不可分,受此启发,UniEmoX 整合了以场景为中心和以人为中心的低层次图像空间结构信息,旨在衍生出更细致入微、更具辨别力的情感表征。通过利用配对和非配对图像-文本样本之间的相似性,UniEmoX 从 CLIP 模型中提炼出丰富的语义知识,从而更有效地增强情感嵌入表征。据我们所知,这是首个将心理学理论与当代对比学习和遮蔽图像建模技术相结合的大规模预训练框架,可用于不同场景下的情感分析。此外,我们还开发了名为 Emo8 的视觉情绪数据集。Emo8 样本涵盖了一系列领域,包括卡通、自然、写实、科幻和广告封面风格,几乎涵盖了所有常见的情感场景。在两个下游任务的六个基准数据集上进行的综合实验验证了 UniEmoX 的有效性。源代码可从 https://github.com/chincharles/u-emo 获取。

15.Image-guided topic modeling for interpretable privacy classification

标题:图像引导主题建模,实现可解释的隐私分类

author:Alina Elena Baia, Andrea Cavallaro

publish:Paper accepted at the eXCV Workshop at ECCV 2024. Supplementary
material included. Code available at https://github.com/idiap/itm

date Time:2024-09-27

paper pdf:http://arxiv.org/pdf/2409.18674v1

摘要
用人类可理解的语言预测和解释图像中包含的私人信息是一项复杂且与上下文相关的任务。即使对于大型语言模型来说,这项任务也具有挑战性。为了便于理解隐私决策,我们建议根据一组自然语言内容描述符来预测图像隐私。这些内容描述符与隐私评分相关联,反映了人们对图像内容的看法。我们采用新颖的图像引导主题建模(ITM)方法生成描述符。ITM 通过多模态对齐,同时利用视觉信息和来自视觉语言模型的图像文本描述。我们使用 ITM 生成的描述符来学习隐私预测器 Priv × \times ×ITM,其决策是可解释的。我们的 Priv × \times ×ITM 分类器的准确率比参考的可解释方法高出 5 个百分点,与当前不可解释的最先进模型性能相当。

16.Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey

标题:值得信赖的文本到图像扩散模型:及时而有针对性的调查

author:Yi Zhang, Zhen Chen, Chih-Hong Cheng, Wenjie Ruan, Xiaowei Huang, Dezong Zhao, David Flynn, Siddartha Khastgir, Xingyu Zhao

publish:under review

date Time:2024-09-26

paper pdf:http://arxiv.org/pdf/2409.18214v1

摘要
文本到图像(T2I)扩散模型(DMs)因其在图像生成方面令人印象深刻的进步而受到广泛关注。然而,它们的日益普及引发了道德和社会问题,这些问题涉及可信度的关键非功能特性,如稳健性、公平性、安全性、隐私性、事实性和可解释性,与传统深度学习(DL)任务中的问题类似。由于 T2I DM 的独特性(如多模式性质),在 DL 任务中研究可信度的传统方法往往存在不足。考虑到这一挑战,人们最近一直在努力开发新方法,通过各种手段来研究 T2I DM 中的可信度,包括伪造、增强、验证和评估。然而,有关这些非功能特性和手段的深入分析却明显不足。在本调查报告中,我们对有关可信 T2I DMs 的文献进行了及时而有针对性的回顾,从属性、手段、基准和应用的角度涵盖了一个简明的结构化分类法。我们的综述首先介绍了 T2I DM 的基本前提,然后总结了针对 T2I 任务的关键定义/度量标准,并分析了近期文献中基于这些定义/度量标准提出的方法。此外,我们还回顾了 T2I DM 的基准和领域应用。最后,我们强调了当前研究中的不足,讨论了现有方法的局限性,并提出了未来的研究方向,以推动可信 T2I DM 的发展。此外,我们还不断更新该领域的最新信息,以跟踪最新进展,并维护我们的 GitHub 存储库:https://github.com/wellzline/Trustworthy_T2I_DMs。

17.EgoLM: Multi-Modal Language Model of Egocentric Motions

标题:EgoLM:以自我为中心运动的多模式语言模型

author:Fangzhou Hong, Vladimir Guzov, Hyo Jin Kim, Yuting Ye, Richard Newcombe, Ziwei Liu, Lingni Ma

publish:Project Page: https://hongfz16.github.io/projects/EgoLM

date Time:2024-09-26

paper pdf:http://arxiv.org/pdf/2409.18127v1

摘要
随着可穿戴设备的普及,学习自我中心运动对于开发上下文人工智能至关重要。在这项工作中,我们提出了一个多功能框架 EgoLM,它可以从多模态输入(如自我中心视频和运动传感器)中跟踪和理解自我中心运动。EgoLM 利用丰富的上下文进行自我运动跟踪和理解的消歧,而这在单一模态条件下是难以实现的。为了促进多功能和多模态框架的发展,我们的主要见解是使用大型语言模型(LLM)对自我中心运动和自然语言的联合分布进行建模。多模态传感器输入被编码并投射到语言模型的联合潜在空间,并分别用于提示运动生成或文本生成,以实现自我运动跟踪或理解。在大规模多模态人体运动数据集上进行的广泛实验验证了 EgoLM 作为通用自我中心学习模型的有效性。

18.IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot Captioning

标题:IFCap:用于零镜头字幕的类图像检索和基于频率的实体过滤技术

author:Soeun Lee, Si-Woo Kim, Taewhan Kim, Dong-Jin Kim

publish:Accepted to EMNLP 2024

date Time:2024-09-26

paper pdf:http://arxiv.org/pdf/2409.18046v1

摘要
最近,图像字幕技术的进步探索了纯文本训练方法,以克服图像-文本配对数据的局限性。然而,现有的纯文本训练方法往往忽略了在训练过程中使用文本数据与在推理过程中使用图像之间的模态差距。为了解决这个问题,我们提出了一种名为 “类图像检索”(Image-like Retrieval)的新方法,该方法将文本特征与视觉相关特征相匹配,以缩小模态差距。我们的方法通过设计一个融合模块,将检索到的标题与输入特征整合在一起,从而进一步提高了生成标题的准确性。此外,我们还引入了一种基于频率的实体过滤技术,可显著提高字幕质量。我们将这些方法整合到一个统一的框架中,并将其称为 IFCap(用于零镜头 Cap \textbf{Cap} Captioning 的 I \textbf{I} Image-like Retrieval 和 F \textbf{F} Frequency-based Entity Filtering)。通过广泛的实验,我们简单而强大的方法证明了它的功效,与基于纯文本训练的零镜头字幕制作相比,我们在图像字幕制作和视频字幕制作方面的表现明显优于最先进的方法。

19.DARE: Diverse Visual Question Answering with Robustness Evaluation

标题:DARE:带稳健性评估的多样化视觉问题解答

author:Hannah Sterz, Jonas Pfeiffer, Ivan Vulić

date Time:2024-09-26

paper pdf:http://arxiv.org/pdf/2409.18023v1

摘要
视觉语言模型(VLM)扩展了纯文本大型语言模型和纯视觉模型的卓越能力,能够学习和处理多模态视觉文本输入。虽然现代视觉语言模型在一些标准图像分类和图像-文本匹配任务中表现出色,但它们在一些关键的视觉语言(VL)推理能力(如计数和空间推理)方面仍有困难。此外,虽然它们对指令和/或评估协议中的微小变化可能非常敏感,但现有的基准却无法评估它们的鲁棒性(或者说缺乏鲁棒性)。为了将具有挑战性的 VL 场景与全面的鲁棒性评估结合起来,我们引入了 DARE(具有鲁棒性评估的多样化视觉问题解答),这是一个经过精心创建和策划的多选 VQA 基准。DARE 评估了五种不同类别的 VLM 性能,包括基于以下变化的四种鲁棒性评估:提示、答案选项子集、输出格式和正确答案数量。在一系列其他发现中,我们发现最先进的 VLM 在处理大多数类别的问题时仍然很吃力,无法在所测试的稳健性评估中始终保持最高性能。选项子集的最差性能比标准情况下的性能最多低 34%。LLaVA 1.6 和 Idefics2 等开源 VLM 的鲁棒性无法与 GPT-4 和 Gemini 等闭源模型相提并论,但即使是后者,在不同变化面前也非常脆弱。

20.Cascade Prompt Learning for Vision-Language Model Adaptation

标题:用于视觉语言模型适应的级联提示学习

author:Ge Wu, Xin Zhang, Zheng Li, Zhaowei Chen, Jiajun Liang, Jian Yang, Xiang Li

publish:ECCV2024

date Time:2024-09-26

paper pdf:http://arxiv.org/pdf/2409.17805v1

摘要
在应用于下游任务时,提示学习已成为提高视觉语言模型(VLM)(如 CLIP)性能的一种有效方法。然而,目前可学习的提示标记主要用于适应任务的单一阶段(即适应提示),容易导致过拟合风险。在这项工作中,我们提出了一种新颖的级联提示学习(Cascade Prompt Learning CasPL)框架,使提示学习能够同时服务于通用和特定的专业知识(即提升提示和适应提示)。具体来说,CasPL 是一种新的学习范式,由两个不同阶段的可学习提示组成:第一个提升提示是通过使用大量未标记的领域图像对齐其预测对数,从高级的大型 CLIP 教师模型中提取领域通用知识。然后,按照先前研究中采用的方法,将第二套自适应提示与冻结的第一套提示级联,以微调下游任务。通过这种方式,CasPL 可以有效地将领域通用表征和任务特定表征捕捉到明确不同的渐进提示组中,从而有可能缓解目标领域中的过度拟合问题。值得注意的是,CasPL 是一个即插即用的模块,可以无缝集成到任何现有的提示学习方法中。CasPL 在性能和推理速度之间实现了更好的平衡,这对于在资源有限的环境中部署较小的 VLM 模型尤其有利。与之前最先进的方法 PromptSRC 相比,CasPL 在 11 个图像分类数据集上的基础类平均改进了 1.85%,新类别平均改进了 3.44%,调和平均值平均改进了 2.72%。代码可在 https://github.com/megvii-research/CasPL 公开获取。

21.CASPFormer: Trajectory Prediction from BEV Images with Deformable Attention

标题:CASPFormer:利用可变形注意力从 BEV 图像中预测轨迹

author:Harsh Yadav, Maximilian Schaefer, Kun Zhao, Tobias Meisen

publish:Under Review at ICPR 2024, Kolkata

date Time:2024-09-26

paper pdf:http://arxiv.org/pdf/2409.17790v1

摘要
运动预测是自动驾驶(AD)和高级驾驶辅助系统(ADAS)的一个重要方面。目前最先进的运动预测方法依赖于高清(HD)地图来捕捉自我车辆的周围环境。由于高清地图的制作和实时更新成本高昂,此类系统在实际部署中缺乏可扩展性。为了克服这一问题,我们提出了上下文感知场景预测转换器(CASPFormer),它可以从光栅化的鸟眼视图(BEV)图像中执行多模式运动预测。我们的系统可以与任何能够生成 BEV 图像的上游感知模块集成。此外,CASPFormer 可直接解码矢量化轨迹,无需任何后处理。轨迹解码采用可变形注意力进行循环解码,因为这种方法计算效率高,而且能让网络将注意力集中在 BEV 图像的重要空间位置上。此外,我们还通过结合可学习模式查询,解决了生成多个场景一致轨迹的模式崩溃问题。我们在 nuScenes 数据集上对我们的模型进行了评估,结果表明它在多个指标上都达到了最先进的水平

22.P4Q: Learning to Prompt for Quantization in Visual-language Models

标题:P4Q:学习在视觉语言模型中进行量化提示

author:Huixin Sun, Runqi Wang, Yanjing Li, Xianbin Cao, Xiaolong Jiang, Yao Hu, Baochang Zhang

date Time:2024-09-26

paper pdf:http://arxiv.org/pdf/2409.17634v1

摘要
大规模预训练视觉语言模型(VLM)在各种视觉和多模态任务中的应用日益突出,但由于其对训练样本和计算资源的要求过高,在下游应用平台上部署 VLM 仍然充满挑战。对 VLM 进行微调和量化可以大幅降低样本和计算成本,而这正是我们迫切需要的。目前有两种流行的量化范式:量化感知训练(Quantization-Aware Training,QAT)可以有效地量化大规模 VLM,但会产生巨大的训练成本;而低位训练后量化(Post-Training Quantization,PTQ)则会导致性能明显下降。我们提出了一种平衡微调和量化的方法,名为 “量化提示”(P4Q),其中我们设计了一种轻量级架构,利用对比损失监督来提高 PTQ 模型的识别性能。我们的方法基于可学习的提示来重组文本表征,并利用低比特适配器来重新调整图像和文本特征的分布,从而有效地缩小了低比特量化所造成的图像特征和文本特征之间的差距。我们还引入了基于余弦相似性预测的提炼损失,利用全精度教师对量化模型进行提炼。广泛的实验结果表明,我们的 P4Q 方法优于之前的技术,甚至可以达到与全精度方法相媲美的效果。例如,我们的 8 位 P4Q 理论上可以将 CLIP-ViT/B-32 压缩 4 次,同时达到 66.94% 的 Top-1 准确率,在 ImageNet 数据集上以可忽略不计的附加参数比可学习的提示微调全精度模型高出 2.24%。

23.SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion

标题:SimVG:多模态解耦融合视觉接地的简单框架

author:Ming Dai, Lingfeng Yang, Yihao Xu, Zhenhua Feng, Wankou Yang

publish:21pages, 11figures, NeurIPS2024

date Time:2024-09-26

paper pdf:http://arxiv.org/pdf/2409.17531v1

摘要
视觉接地是一项常见的视觉任务,涉及将描述性句子接地到图像的相应区域。现有方法大多使用独立的图像-文本编码,并应用复杂的手工制作模块或编码器-解码器架构进行模态交互和查询推理。然而,在处理复杂的文本表达时,这些方法的性能明显下降。这是因为前一种模式只能利用有限的下游数据来适应多模态特征融合。因此,它只有在文本表达相对简单时才有效。相反,鉴于文本表达的广泛多样性和下游训练数据的独特性,现有的从视觉语言上下文中提取多模态内容的融合模块尚未得到充分研究。在本文中,我们提出了一个简单而稳健的基于转换器的视觉接地框架–SimVG。具体来说,我们利用现有的多模态预训练模型,并结合额外的对象标记,将视觉语言特征融合与下游任务解耦,从而促进下游任务与预训练任务的深度融合。此外,我们还在多分支同步学习过程中设计了一种动态权重平衡蒸馏方法,以增强较简单分支的表征能力。该分支只包含一个轻量级的 MLP,从而简化了结构,提高了推理速度。在六个广泛使用的 VG 数据集(即 RefCOCO/+/g、ReferIt、Flickr30K 和 GRefCOCO)上的实验证明了 SimVG 的优越性。最后,所提出的方法不仅提高了效率和收敛速度,而且在这些基准上达到了新的一流性能。代码和模型将发布在 \url{https://github.com/Dmmm1997/SimVG} 上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值