AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.20-2024.01.25

1.VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks

标题:VisualWebArena:在真实视觉网络任务中评估多模态代理

author:Jing Yu Koh, Robert Lo, Lawrence Jang, Vikram Duvvur, Ming Chong Lim, Po-Yu Huang, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, Daniel Fried

publish:24 pages. Project page: https://jykoh.com/vwa

date Time:2024-01-24

paper pdf:http://arxiv.org/pdf/2401.13649v1

摘要
能够在网络上规划、推理和执行操作的自主代理为计算机任务自动化提供了一条前景广阔的途径。然而,现有的大多数基准主要关注基于文本的代理,忽略了许多需要视觉信息才能有效解决的自然任务。鉴于大多数计算机界面都迎合了人类的感知,视觉信息通常会以纯文本模型难以有效利用的方式增强文本数据。为了弥补这一差距,我们引入了VisualWebArena,它是一个旨在评估多模态网络代理在现实文本任务中性能的基准。VisualWebArena由一系列多样而复杂的基于网络的任务组成,用于评估自主多模态代理的各种能力。要完成这项基准任务,代理需要准确处理图像-文本输入,解释自然语言指令,并在网站上执行操作以完成用户定义的目标。我们对最先进的基于 LLM 的自主代理(包括几种多模态模型)进行了广泛评估。通过广泛的定量和定性分析,我们发现了纯文本 LLM 代理的一些局限性,并揭示了最先进的多模态语言代理在能力上的差距。VisualWebArena 为评估多模态自主语言代理提供了一个框架,并为构建更强大的网络自主代理提供了启示。我们的代码、基线模型和数据可通过 https://jykoh.com/vwa 公开获取。

2.Enhancing Image Retrieval : A Comprehensive Study on Photo Search using the CLIP Mode

标题:增强图像检索:使用 CLIP 模式进行照片搜索的综合研究

author:Naresh Kumar Lahajal, Harini S

date Time:2024-01-24

paper pdf:http://arxiv.org/pdf/2401.13613v1

摘要
图片搜索是一项根据文本查询检索图片的任务,随着 CLIP(对比语言-图片预训练)模型的引入,这项任务取得了重大进展。CLIP 利用视觉语言预训练方法,学习图像和文本的共享表示空间,从而实现跨模态理解。该模型展示了理解不同图像和文本对之间语义关系的能力,从而可以根据自然语言查询高效、准确地检索图像。通过在包含图像及其相关文本描述的大规模数据集上进行训练,CLIP 实现了显著的泛化,为零镜头学习和少镜头分类等任务提供了强大的工具。本摘要总结了 CLIP 的基本原理,并强调了它对推动图片搜索领域的潜在影响,促进自然语言理解与计算机视觉的无缝整合,以改进多媒体应用中的信息检索。

3.UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

标题:UNIMO-G:通过多模态条件扩散生成统一图像

author:Wei Li, Xue Xu, Jiachen Liu, Xinyan Xiao

publish:Project page: https://unimo-ptm.github.io/

date Time:2024-01-24

paper pdf:http://arxiv.org/pdf/2401.13388v2

摘要
现有的文本到图像扩散模型主要根据文本提示生成图像。然而,文本描述固有的简洁性给忠实合成具有复杂细节(如特定实体或场景)的图像带来了挑战。本文介绍的 UNIMO-G 是一种简单的多模态条件扩散框架,可在多模态提示下交错使用文本和视觉输入,展示了文本驱动和主题驱动图像生成的统一能力。UNIMO-G 由两个核心部分组成:多模态大语言模型(MLLM),用于编码多模态提示;条件去噪扩散网络,用于根据编码的多模态输入生成图像。我们采用两阶段训练策略来有效训练该框架:首先在大规模文本-图像对上进行预训练,以开发条件图像生成能力,然后使用多模态提示进行指令调整,以达到统一的图像生成能力。在构建多模态提示时,采用了精心设计的数据处理流水线,包括语言接地和图像分割。UNIMO-G 在文本到图像生成和零镜头主体驱动合成方面表现出色,在从涉及多个图像实体的复杂多模态提示生成高保真图像方面效果显著。

4.MLLMReID: Multimodal Large Language Model-based Person Re-identification

标题:MLLMReID:基于多模态大语言模型的人员再识别

author:Shan Yang, Yongfei Zhang

date Time:2024-01-24

paper pdf:http://arxiv.org/pdf/2401.13201v1

摘要
多模态大语言模型(MLLM)在许多任务中都取得了令人满意的结果。然而,迄今为止,它们在人员再识别(ReID)任务中的表现尚未得到探讨。本文将研究如何将它们用于 ReID 任务。一个直观的想法是利用 ReID 图像-文本数据集对 MLLM 进行微调,然后将其视觉编码器作为 ReID 的骨干。然而,仍然存在两个明显的问题:(1) 为 ReID 设计指令时,MLLM 可能会过度适应特定指令,而设计各种指令会导致成本增加。(2) LLM 的潜在图像特征向量不参与损失计算。将图像和文本特征对齐的指令学习会导致间接优化和学习目标不能充分利用特征,从而限制了个人特征学习的有效性。针对这些问题,本文提出了 MLLMReID:基于多模态大语言模型的 ReID。首先,我们提出了 “通用指令”(Common Instruction)这一简单方法,利用 LLM 的本质能力进行续写,避免了复杂多样的指令设计。其次,我们提出了 DirectReID,在 ReID 任务中有效利用 LLM 输出图像的潜在图像特征向量。实验结果证明了我们方法的优越性。我们将在 GitHub 上开源代码。

5.UniHDA: Towards Universal Hybrid Domain Adaptation of Image Generators

标题:UniHDA:实现图像生成器的通用混合域自适应

author:Hengjia Li, Yang Liu, Yuqi Lin, Zhanwei Zhang, Yibo Zhao, weihang Pan, Tu Zheng, Zheng Yang, Yuchun Jiang, Boxi Wu, Deng Cai

date Time:2024-01-23

paper pdf:http://arxiv.org/pdf/2401.12596v1

摘要
生成式领域适配已经取得了显著进展,使我们能够将预先训练好的生成器适配到新的目标领域。然而,现有的方法只是简单地将生成器适配到单一目标域,而且仅限于单一模式,要么是文本驱动,要么是图像驱动。此外,这些方法还容易过度拟合特定领域的属性,从而不可避免地影响跨领域一致性。在本文中,我们提出了 UniHDA,这是一个统一、通用的框架,用于生成混合领域适应,并提供来自多个领域的多模态参考。我们使用 CLIP 编码器将多模态引用投影到统一的嵌入空间,然后线性插值多个目标域的方向向量,从而实现混合域适应。为了确保跨域一致性,我们提出了一种新的跨域空间结构(CSS)损失,以保持源生成器和目标生成器之间的详细空间结构信息。实验表明,经过调整的生成器可以合成具有各种属性组合的逼真图像。此外,我们的框架还适用于多种生成器,如 \eg、StyleGAN2 和扩散模型。

6.Self-Supervised Vision Transformers Are Efficient Segmentation Learners for Imperfect Labels

标题:自监督视觉变换器是不完美标签的高效分割学习器

author:Seungho Lee, Seoungyoon Kang, Hyunjung Shim

publish:AAAI2024 Edge Intelligence Workshop (EIW) accepted

date Time:2024-01-23

paper pdf:http://arxiv.org/pdf/2401.12535v1

摘要
本研究展示了一种利用自监督视觉转换器(SSVT)进行语义分割的经济有效的方法。通过冻结 SSVT 骨干和训练轻量级分割头,我们的方法有效地利用了不完善的标签,从而提高了对标签不完善的鲁棒性。实证实验表明,与现有方法相比,我们在各种标注类型(包括涂鸦、点级和图像级标签)上的性能都有显著提高。这项研究凸显了自监督视觉转换器在处理不完美标签方面的有效性,为语义分割提供了实用高效的解决方案,同时降低了标注成本。通过大量实验,我们证实我们的方法在处理各种类型的不完美标签时都优于基准模型。特别是在基于视觉语言模型的零镜头标签下,我们的模型比基线模型的性能提高了11.5%p。

7.Exploring Simple Open-Vocabulary Semantic Segmentation

标题:探索简单的开放词汇语义分割

author:Zihang Lai

publish:Code is available at: https://github.com/zlai0/S-Seg

date Time:2024-01-22

paper pdf:http://arxiv.org/pdf/2401.12217v1

摘要
开放词汇语义分割模型旨在从一组任意开放词汇文本中为图像中的每个像素准确分配一个语义标签。为了学习这种像素级对齐,目前的方法通常依赖于以下几种组合:(i) 图像级 VL 模型(如 CLIP);(ii) 地面真实掩码;(iii) 自定义分组编码器。在本文中,我们介绍了 S-Seg,这是一种新颖的模型,无需依赖上述任何要素即可实现惊人的强大性能。S-Seg 利用伪掩码和语言来训练 MaskFormer,并可通过公开的图像-文本数据集轻松训练。与之前的工作不同,我们的模型直接训练像素级特征和语言对齐。一旦训练完成,S-Seg 就能很好地泛化到多个测试数据集,无需进行微调。此外,S-Seg 还具有数据可扩展性的额外优势,并能在自我训练的基础上不断改进。我们相信,我们简单而有效的方法将成为未来研究的坚实基础。

8.SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

标题:SpatialVLM:赋予视觉语言模型空间推理能力

author:Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia

date Time:2024-01-22

paper pdf:http://arxiv.org/pdf/2401.12168v1

摘要
理解和推理空间关系是视觉问题解答(VQA)和机器人技术的一项基本能力。虽然视觉语言模型(VLM)在某些 VQA 基准测试中表现出色,但它们仍然缺乏三维空间推理能力,例如识别物理对象的定量关系(如距离或大小差异)。我们假设,VLMs 的空间推理能力有限是由于训练数据中缺乏三维空间知识,因此我们希望通过使用互联网规模的空间推理数据训练 VLMs 来解决这一问题。为此,我们提出了一个系统来推动这一方法。我们首先开发了一个自动三维空间 VQA 数据生成框架,该框架可在 1,000 万张真实世界图像上生成 20 亿个 VQA 示例。然后,我们研究了训练配方中的各种因素,包括数据质量、训练管道和 VLM 架构。我们的工作以首个互联网规模的度量空间三维空间推理数据集为特色。通过在此类数据上训练 VLM,我们大大提高了 VLM 在定性和定量空间 VQA 方面的能力。最后,我们证明了这种 VLM 凭借其定量估算能力,在思维链空间推理和机器人学领域开启了新的下游应用。项目网站: https://spatial-vlm.github.io/

9.SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning

标题:SignVTCL:通过视觉-文本对比学习增强多模式连续手语识别能力

author:Hao Chen, Jiaze Wang, Ziyu Guo, Jinpeng Li, Donghao Zhou, Bian Wu, Chenyong Guan, Guangyong Chen, Pheng-Ann Heng

date Time:2024-01-22

paper pdf:http://arxiv.org/pdf/2401.11847v1

摘要
手语识别(SLR)在促进听障群体交流方面发挥着重要作用。手语识别是一项弱监督任务,整个视频都标注了词汇,因此在视频片段中识别相应的词汇具有挑战性。最近的研究表明,SLR 的主要瓶颈在于大规模数据集的可用性有限,导致训练不足。为了应对这一挑战,我们提出了 SignVTCL,一个通过视觉-文本对比学习增强的多模态连续手语识别框架,它充分利用了多模态数据的潜力和语言模型的泛化能力。SignVTCL 同时整合了多模态数据(视频、关键点和光流),以训练统一的视觉骨干,从而获得更强大的视觉表征。此外,SignVTCL 还包含一种视觉-文本对齐方法,该方法结合了词汇层面和句子层面的对齐,以确保视觉特征与词汇在单个词汇和句子层面的精确对应。在 Phoenix-2014、Phoenix-2014T 和 CSL-Daily 三个数据集上进行的实验结果表明,与之前的方法相比,SignVTCL 达到了最先进的效果。

10.M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action Recognition

标题:M2-CLIP:用于视频动作识别的多模态、多任务自适应框架

author:Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

date Time:2024-01-22

paper pdf:http://arxiv.org/pdf/2401.11649v1

摘要
近来,大规模视觉语言预训练模型(如 CLIP)以及参数高效微调(PEFT)技术的兴起,在视频动作识别领域吸引了大量关注。然而,目前流行的方法倾向于优先考虑强大的监督性能,而牺牲了模型在传输过程中的泛化能力。在本文中,我们介绍了一种名为 CLIP 的新型多模态、多任务自适应框架,以应对这些挑战,同时保持较高的监督性能和稳健的可转移性。首先,为了增强单个模态架构,我们为视觉和文本分支引入了多模态适配器。具体来说,我们设计了一种新颖的视觉 TED 适配器,可执行全局时空增强和局部时差建模,以提高视觉编码器的时空表示能力。此外,我们还采用文本编码器适配器来加强语义标签信息的学习。其次,我们设计了一种具有丰富监督信号的多任务解码器,以满足在多模态框架内对强大监督性能和泛化能力的需求。实验结果验证了我们方法的有效性,证明了我们在监督学习方面的卓越性能,同时在零点场景中保持了强大的泛化能力。

11.Zoom-shot: Fast and Efficient Unsupervised Zero-Shot Transfer of CLIP to Vision Encoders with Multimodal Loss

标题:放大拍摄:将 CLIP 快速高效地无监督零镜头传输到具有多模态损失的视觉编码器上

author:Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton Fookes

publish:15 pages

date Time:2024-01-22

paper pdf:http://arxiv.org/pdf/2401.11633v1

摘要
通过视觉语言模型(VLM)的出现,视觉与语言的融合为计算机视觉领域带来了变革。然而,现有 VLMs 的资源密集性质带来了巨大挑战。我们需要一种易于使用的方法来开发下一代视觉语言模型。为了解决这个问题,我们提出了 Zoom-shot,这是一种将 CLIP 的零拍摄功能转移到任何预训练视觉编码器的新方法。为此,我们通过使用专门设计的多模态损失函数,利用 CLIP 潜在空间中的多模态信息(即文本和图像)。这些损失函数是:(1) 循环一致性损失;(2) 我们新颖的提示引导知识提炼损失 (PG-KD)。PG-KD 将知识提炼的概念与 CLIP 的零镜头分类相结合,以捕捉文本和图像特征之间的相互作用。利用我们的多模态损失,我们可以在 CLIP 潜在空间和预先训练的视觉编码器的潜在空间之间训练一个 线性映射 \textbf{线性映射} 线性映射,而且只需要 single   epoch \textbf{single epoch} single epoch。此外,Zoom-shot 完全是无监督的,并使用 unpaired \textbf{unpaired} unpaired 数据进行训练。我们在粗粒度和细粒度分类数据集上测试了一系列视觉编码器的零点拍摄能力,这些视觉编码器增强为新的 VLM,在这一问题领域的表现优于之前的先进水平。我们发现,在训练过程中,Zoom-shot 可以在数据和计算之间进行权衡;通过将 20 个历时的 ImageNet 训练数据从 20% 减少到 1%,就能获得最先进的结果。所有代码和模型均可在 GitHub 上获取。

12.Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement

标题:用强调报告提炼的关键语义知识增强视觉语言基础模型

author:Cheng Li, Weijian Huang, Hao Yang, Jiarun Liu, Shanshan Wang

date Time:2024-01-21

paper pdf:http://arxiv.org/pdf/2401.11421v1

摘要
最近,视觉语言表征学习在建立医学基础模型方面取得了令人瞩目的进展,为改变临床研究和医疗护理的面貌带来了巨大的潜力。其基本假设是,蕴含在放射学报告中的丰富知识可以有效地帮助和指导学习过程,减少对额外标签的需求。然而,这些报告往往非常复杂,有时甚至包含冗余描述,使得表征学习在捕捉关键语义信息方面面临巨大挑战。本文通过提出一种强调关键语义知识的报告细化方法,开发了一种新颖的迭代视觉语言表征学习框架。特别是,根据构建的临床词典和两个模型优化的知识增强指标,对原始放射学报告进行提炼,以突出关键信息。迭代框架旨在逐步学习,从基于原始报告获得对患者病情的总体了解开始,逐步提炼和提取对细粒度分析任务至关重要的关键信息。我们在各种下游医疗图像分析任务(包括疾病分类、兴趣区域分割和短语接地)中验证了所提框架的有效性。我们的框架在微调和零镜头设置方面都超过了七种最先进的方法,证明了它在不同临床应用中令人鼓舞的潜力。

13.Prompting Large Vision-Language Models for Compositional Reasoning

标题:提示大型视觉语言模型以进行组合推理

author:Timothy Ossowski, Ming Jiang, Junjie Hu

date Time:2024-01-20

paper pdf:http://arxiv.org/pdf/2401.11337v1

摘要
视觉语言模型(如 CLIP)在将文本和图像编码为对齐的嵌入方面表现出令人印象深刻的能力,从而能够在共享的嵌入空间中检索多模态数据。然而,这些基于嵌入的模型在有效匹配具有相似视觉语言构成性的图像和文本方面仍然面临挑战,它们在最近的 Winoground 数据集上的表现就证明了这一点。在本文中,我们认为这种限制源于两个因素:对复杂的多模态数据使用单一向量表示法,以及这些基于嵌入的方法缺乏逐步推理。为了解决这个问题,我们使用一种新颖的生成方法进行了探索,该方法可促使大型视觉语言模型(如 GPT-4)描绘图像并执行合成推理。在 Winoground 数据集上,我们的方法优于其他基于嵌入的方法,而且在使用最佳描述增强后,准确率进一步提高了 10%。

  • 24
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值