AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.01.15-2024.01.20

本文链接：https://blog.csdn.net/weixin_44362044/article/details/136342525

论文目录~

1.RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision
2.MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
3.Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge
4.Enhancing medical vision-language contrastive learning via inter-matching relation modelling
5.CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios
6.MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer
7.Question-Answer Cross Language Image Matching for Weakly Supervised Semantic Segmentation
8.Improving fine-grained understanding in image-text pre-training
9.SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model
10.Bridging Research and Readers: A Multi-Modal Automated Academic Papers Interpretation System
11.AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant Reviews and Images on Social Media
12.Multi-view Distillation based on Multi-modal Fusion for Few-shot Action Recognition(CLIP- $\mathrm{M^2}$ DF)
13.VeCAF: VLM-empowered Collaborative Active Finetuning with Training Objective Awareness
14.FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos

1.RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision

标题:RAD-DINO：探索文本监督之外的可扩展医学图像编码器

author:Fernando Pérez-García, Harshita Sharma, Sam Bond-Taylor, Kenza Bouzid, Valentina Salvatelli, Maximilian Ilse, Shruthi Bannur, Daniel C. Castro, Anton Schwaighofer, Matthew P. Lungren, Maria Wetscherek, Noel Codella, Stephanie L. Hyland, Javier Alvarez-Valle, Ozan Oktay

date Time:2024-01-19

paper pdf:http://arxiv.org/pdf/2401.10815v1

摘要：
事实证明，语言监督预训练是从图像中提取有语义意义特征的重要方法，是计算机视觉和医学成像领域多模态系统的基础元素。然而，所提取的特征受到文本信息的限制。这在医学影像领域尤为突出，因为放射科医生的书面结论主要集中在具体的观察结果上；由于担心个人健康信息泄露，成对的图像-文本数据非常稀缺，这就加剧了这一挑战。在这项工作中，我们从根本上挑战了在学习通用生物医学成像编码器时普遍依赖语言监督的做法。我们介绍了 RAD-DINO，这是一种仅在单模态生物医学成像数据上进行预训练的生物医学图像编码器，它在各种基准测试中的表现与最先进的生物医学语言监督模型相近或更高。具体来说，我们在标准成像任务（分类和语义分割）和视觉语言配准任务（根据图像生成文本报告）上对所学表征的质量进行了评估。为了进一步证明语言监督的缺点，我们展示了来自 RAD-DINO 的特征与其他医疗记录（如性别或年龄）的相关性优于语言监督模型，而放射学报告中一般不会提及这些特征。最后，我们进行了一系列分析，以确定影响 RAD-DINO 性能的因素；值得注意的是，我们观察到 RAD-DINO 的下游性能随着训练数据的数量和多样性的增加而增长，这表明纯图像监督是训练基础生物医学图像编码器的一种可扩展方法。

2.MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning

标题:MLLM-Tool：用于工具代理学习的多模态大语言模型

author:Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua, Xuan, Zhengxin Li, Lin Ma, Shenghua Gao

publish:21 pages, 9 figures, 10 tables

date Time:2024-01-19

paper pdf:http://arxiv.org/pdf/2401.10727v2

摘要：
最近，大型语言模型（LLMs）在自然语言理解和生成任务中的惊人表现引发了人们对将其作为中心控制器来构建代理系统的大量探索。许多研究都侧重于将 LLM 与外部工具连接起来，以扩展应用场景。然而，目前的 LLMs 感知工具使用的能力仅限于单个文本查询，这可能会导致对用户真实意图理解的模糊性。我们希望 LLMs 能够通过感知以视觉或听觉为基础的指令信息来消除这一问题。因此，我们在本文中提出了 MLLM-Tool，这是一个集成了开源 LLM 和多模态编码器的系统，使学习到的 LLM 能够感知多模态输入指令，然后正确选择功能匹配的工具。为了便于评估模型的能力，我们从 HuggingFace 收集了一个由多模态输入工具组成的数据集。我们数据集的另一个重要特点是，由于存在相同函数和同义函数，我们的数据集还包含同一指令的多个潜在选择，这为同一查询提供了更多潜在解决方案。实验表明，我们的 MLLM 工具能够为多模式指令推荐合适的工具。代码和数据见 https://github.com/MLLM-Tool/MLLM-Tool。

3.Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge

标题:问答提示：通过挖掘 VQA 问答提示发现丰富的视觉线索，需要多样化的世界知识

author:Haibi Wang, Weifeng Ge

date Time:2024-01-19

paper pdf:http://arxiv.org/pdf/2401.10712v1

摘要：
随着多模态大型语言模型的突破，回答需要高级推理能力和世界知识的复杂视觉问题已成为开发人工智能模型比以往任何时候都更为重要的试验平台。然而，由于人类的认知机制尚未被系统地了解，因此让人工智能模型具备强大的跨模态推理能力仍然是一项挑战。在本文中，我们认为如果能尽可能多地收集给定图像中的视觉线索，我们就能更准确地识别图像，更好地理解问题，更容易地回忆起相关知识，并最终推理出答案。我们通过挖掘图像中的问答对来发现这些丰富的视觉线索，并将它们作为提示信息发送到多模态大型语言模型中。我们称这种方法为 Q&A Prompts。具体来说，我们首先将图像-答案对和训练集中的相应问题作为输入和输出，训练视觉问题生成模型。然后，我们使用图像标签模型识别各种实例，并将打包的图像标签对送入视觉问题生成模型，生成以提取的图像标签为答案的相关问题。最后，我们使用视觉感知提示模块将这些生成的问题-答案对编码为提示语，并将其发送到预先训练好的多模态大型语言模型中，以推理出最终答案。实验结果表明，与最先进的方法相比，我们的 Q&A Prompts 在 OK-VQA 和 A-OKVQA 等需要对各种世界知识进行推理的具有挑战性的视觉问题解答数据集上取得了实质性的改进。

4.Enhancing medical vision-language contrastive learning via inter-matching relation modelling

标题:通过相互匹配关系建模加强医学视觉语言对比学习

author:Mingjian Li, Mingyuan Meng, Michael Fulham, David Dagan Feng, Lei Bi, Jinman Kim

publish:11 pages, 5 figures. Under review

date Time:2024-01-19

paper pdf:http://arxiv.org/pdf/2401.10501v1

摘要：
医学图像表征可以通过医学视觉语言对比学习（mVLCL）来学习，在这种学习中，医学影像报告通过图像-文本对齐被用作弱监督。这些学习到的图像表征可以转移到疾病分类和分割等各种下游医学视觉任务中，并从中受益。最近的 mVLCL 方法试图将图像子区域和报告关键词作为局部匹配进行配准。然而，这些方法通过简单的池化操作汇总所有局部匹配，却忽略了它们之间的内在关系。因此，这些方法无法在语义相关的局部匹配之间进行推理，例如，与疾病词和位置词相对应的局部匹配（语义关系），也无法将这些临床上重要的局部匹配与其他意义较小的词相对应的局部匹配区分开来，例如，与连接词相对应的局部匹配（重要性关系）。因此，我们提出了一种 mVLCL 方法，通过关系增强对比学习框架（RECLF）对局部匹配之间的相互匹配关系进行建模。在 RECLF 中，我们引入了语义关系推理模块（SRM）和重要性关系推理模块（IRM），以便为图像表征学习提供更精细的报告监督。我们使用四个公共基准数据集对我们的方法进行了评估，包括分割、零镜头分类、监督分类和跨模态检索等四个下游任务。我们的结果表明，我们的 RECLF 比最先进的 mVLCL 方法更有优势，在单模态和跨模态任务中都取得了一致的改进。这些结果表明，我们的 RECLF 通过对相互匹配关系建模，可以学习到更好的医学图像表征，并具有更好的泛化能力。

5.CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios

标题:CBVS：面向真实世界短视频搜索场景的大型中文图像-文本基准平台

author:Xiangshuo Qiao, Xianxin Li, Xiaozhe Qu, Jie Zhang, Yang Liu, Yu Luo, Cihang Jin, Jin Ma

date Time:2024-01-19

paper pdf:http://arxiv.org/pdf/2401.10475v2

摘要：
在大规模图像-文本数据集上进行预训练的视觉-语言模型在图像检索等下游任务中表现出卓越的性能。大部分用于预训练的图像都是以开放领域常识性视觉元素的形式呈现的。不同的是，短视频搜索场景中的视频封面是以用户原创内容的形式呈现的，这些内容提供了视频的重要视觉摘要。此外，部分视频封面还附有人工设计的封面文本，以提供语义补充。为了填补短视频封面数据的空白，我们建立了首个针对中文短视频搜索场景的大规模封面文本基准。具体来说，我们发布了两个大规模数据集：CBVS-500 万/1000 万提供短视频封面数据，以及 CBVS-20K 人工精细标注数据集提供真实用户查询数据，作为中文短视频搜索领域的图像-文本基准测试。为了在模态缺失的情况下整合封面文本的语义，我们提出了 UniCLIP，其中封面文本在训练过程中起指导作用，但不依赖于推理。在 CBVS-20K 上进行的广泛评估证明了我们的建议具有卓越的性能。UniCLIP 已被部署到腾讯的在线视频搜索系统中，访问量达数亿次，并取得了显著的收益。有关数据集和代码，请访问 https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP。

6.MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer

标题:MM-Interleaved：通过多模态特征同步器进行交错图像-文本生成建模

author:Changyao Tian, Xizhou Zhu, Yuwen Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Yuntao Chen, Lewei Lu, Tong Lu, Jie Zhou, Hongsheng Li, Yu Qiao, Jifeng Dai

publish:20 pages, 9 figures, 17 tables

date Time:2024-01-18

paper pdf:http://arxiv.org/pdf/2401.10208v1

摘要：
为交错图像-文本数据开发生成模型既有研究价值，也有实用价值。它需要模型来理解交错序列，然后生成图像和文本。然而，现有的尝试受限于固定数量的视觉标记无法有效捕捉图像细节的问题，这在多图像场景中尤为突出。为了解决这个问题，本文提出了 MM-Interleaved，一种用于交错图像-文本数据的端到端生成模型。它引入了多尺度和多图像特征同步器模块，允许在生成过程中直接访问前一上下文中的细粒度图像特征。MM-Interleaved 在成对和交错图像-文本语料库上进行端到端预训练。通过监督下的微调阶段，该模型进一步增强了遵循复杂多模态指令的能力。实验证明，MM-Interleaved 可根据多模态指令识别视觉细节，并根据文本和视觉条件生成一致的图像。代码和模型可在（url{https://github.com/OpenGVLab/MM-Interleaved}.

7.Question-Answer Cross Language Image Matching for Weakly Supervised Semantic Segmentation

标题:用于弱监督语义分割的问答式跨语言图像匹配

author:Songhe Deng, Wei Zhuo, Jinheng Xie, Linlin Shen

publish:ACM MM 2023

date Time:2024-01-18

paper pdf:http://arxiv.org/pdf/2401.09883v1

摘要：
类激活图（CAM）已成为弱监督语义分割（WSSS）的常用工具，只需使用图像级标签即可定位图像中的对象区域。然而，现有的 CAM 方法存在目标对象区域激活不足和背景区域误激活的问题，这是因为缺乏详细的监督会阻碍模型理解图像整体的能力。在本文中，我们提出了一种用于 WSSS 的新型问答式跨语言图像匹配框架（QA-CLIMS），利用视觉语言基础模型最大限度地提高基于文本的图像理解能力，并指导激活图的生成。首先，通过问题-答案提示工程（QAPE）向 VQA（视觉问题解答）模型提出一系列精心设计的问题，以生成与查询图像相适应的前景目标对象和背景语料库。然后，我们在区域图像文本对比（RITC）网络中采用对比学习，将获得的前景和背景区域与生成的语料库进行对比。我们的方法利用开放词汇中丰富的文本信息作为额外的监督，使模型能够生成具有更完整对象区域的高质量 CAM，并减少背景区域的误激活。我们进行了大量分析来验证所提出的方法，结果表明我们的方法在 PASCAL VOC 2012 和 MS COCO 数据集上的表现都是最先进的。代码见：https://github.com/CVI-SZU/QA-CLIMS

8.Improving fine-grained understanding in image-text pre-training

标题:在图像-文本预训练中提高细粒度理解能力

author:Ioana Bica, Anastasija Ilić, Matthias Bauer, Goker Erdogan, Matko Bošnjak, Christos Kaplanis, Alexey A. Gritsenko, Matthias Minderer, Charles Blundell, Razvan Pascanu, Jovana Mitrović

publish:26 pages

date Time:2024-01-18

paper pdf:http://arxiv.org/pdf/2401.09865v1

摘要：
我们介绍了 SPARse Fine-grained Contrastive Alignment (SPARC)，这是一种从图像-文本对中预训练更精细的多模态表征的简单方法。鉴于多个图像片段通常对应单个单词，我们建议为标题中的每个标记学习图像片段分组。为此，我们在图像补丁和语言标记之间使用稀疏相似度量，并为每个标记计算语言分组视觉嵌入，作为补丁的加权平均值。然后，通过细粒度的序列损失（sequence-wise loss）对标记和语言组视觉嵌入进行对比，这种损失只取决于单个样本，而不需要其他批次样本作为负值。这样就能以计算成本低廉的方式学习到更详细的信息。SPARC 将这种细粒度损失与全局图像和文本嵌入之间的对比损失相结合，从而学习同时编码全局和局部信息的表征。我们对所提出的方法进行了全面评估，结果表明，无论是在依赖粗粒度信息的图像级任务（如分类）上，还是在依赖细粒度信息的区域级任务（如检索、对象检测和分割）上，SPARC 的性能都优于其他同类方法。此外，SPARC 还提高了基础视觉语言模型的模型忠实度和字幕质量。

9.SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model

标题:SkyEyeGPT：通过指令调整与大型语言模型统一遥感视觉语言任务

author:Yang Zhan, Zhitong Xiong, Yuan Yuan

date Time:2024-01-18

paper pdf:http://arxiv.org/pdf/2401.09712v1

摘要：
大型语言模型（LLM）最近被扩展到视觉语言领域，获得了令人印象深刻的通用多模态能力。然而，针对遥感（RS）数据的多模态大型语言模型（MLLMs）的探索仍处于起步阶段，性能也不尽如人意。在这项工作中，我们介绍了 SkyEyeGPT，这是一种专门为 RS 视觉语言理解设计的统一多模态大型语言模型。为此，我们精心策划了一个 RS 多模态指令调整数据集，其中包括单任务和多任务对话指令。经过人工验证，我们获得了一个包含 968k 个样本的高质量 RS 指令跟随数据集。我们的研究表明，通过简单而有效的设计，SkyEyeGPT 不需要额外的编码模块，就能在相当不同的任务中发挥令人惊讶的作用。具体来说，在通过对齐层将 RS 视觉特征投射到语言领域后，它们与特定任务指令一起被输入基于 LLM 的 RS 解码器，以预测 RS 开放式任务的答案。此外，我们还设计了一种两阶段调整方法，以增强不同粒度的指令遵循和多轮对话能力。在 8 个 RS 视觉语言任务数据集上进行的实验表明，SkyEyeGPT 在图像级和区域级任务（如字幕和视觉接地）中表现出色。特别是在一些定性测试中，SkyEyeGPT 与 GPT-4V 相比取得了令人鼓舞的结果。在线演示、代码和数据集将在 https://github.com/ZhanYang-nwpu/SkyEyeGPT 发布。

10.Bridging Research and Readers: A Multi-Modal Automated Academic Papers Interpretation System

标题:连接研究与读者：多模式学术论文自动解读系统

author:Feng Jiang, Kuang Wang, Haizhou Li

date Time:2024-01-17

paper pdf:http://arxiv.org/pdf/2401.09150v1

摘要：
在当代信息时代，随着大规模语言模型的出现，科学文献的激增达到了前所未有的水平。研究人员迫切需要高效的工具来阅读和总结学术论文，发掘重要的科学文献，并采用多种解释方法。为了满足这一急剧增长的需求，自动化科学文献解读系统的作用变得至关重要。然而，现有的商业模式和开源模式都面临着显著的挑战：它们往往忽视多模态数据，难以总结过长的文本，而且缺乏多样化的用户界面。为此，我们推出了一个开源的多模态自动学术论文解读系统（MMAPIS），该系统分为三个步骤，并结合了 LLM 来增强其功能。我们的系统首先采用混合模态预处理和对齐模块，分别从文件中提取纯文本和表格或数字。然后，它根据这些信息所属的章节名称进行对齐，确保章节名称相同的数据归入同一章节。随后，我们引入了一种分层话语感知摘要方法。它利用提取的章节名称将文章划分为较短的文本片段，通过带有特定提示的 LLM，促进章节内部和章节之间的特定摘要。最后，我们设计了四种多样化的用户界面，包括论文推荐、多模态问答、音频广播和释义博客，可广泛应用于各种场景。我们的定性和定量评估都强调了该系统的优越性，尤其是在科学总结方面，它优于仅依赖 GPT-4 的解决方案。

11.AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant Reviews and Images on Social Media

标题:AiGen-FoodReview：社交媒体上机器生成的餐厅评论和图片的多模态数据集

author:Alessandro Gambetti, Qiwei Han

date Time:2024-01-16

paper pdf:http://arxiv.org/pdf/2401.08825v1

摘要：
用户生成内容（UGC）形式的在线评论对消费者的决策产生了重大影响。然而，普遍存在的问题是，不仅存在人为伪造的内容，机器生成的内容也对 UGC 的可靠性提出了挑战。大型语言模型（LLM）的最新进展可能会为以更低的成本制作难以分辨的虚假内容铺平道路。利用 OpenAI 的 GPT-4-Turbo 和 DALL-E-2 模型，我们制作了 AiGen-FoodReview 这个多模态数据集，其中包含 20,144 对餐厅评论图片，分为真实的和机器生成的。我们探索了单模态和多模态检测模型，利用 FLAVA 实现了 99.80% 的多模态准确率。我们使用可读性理论和摄影理论中的属性分别对评论和图片进行评分，证明了它们作为手工制作的特征在可扩展、可解释的检测模型中的实用性，并且性能相当。本文的贡献在于开源了数据集并发布了虚假评论检测器，推荐在单模态和多模态虚假评论检测任务中使用该数据集，并评估了合成数据和真实数据中的语言和视觉特征。

12.Multi-view Distillation based on Multi-modal Fusion for Few-shot Action Recognition(CLIP- $\mathrm{M^2}$ DF)

标题:基于多模态融合的多视图蒸馏法用于少镜头动作识别(CLIP- $\mathrm{M^2}$ DF)

author:Fei Guo, YiKang Wang, Han Qi, WenPing Jin, Li Zhu

date Time:2024-01-16

paper pdf:http://arxiv.org/pdf/2401.08345v1

摘要：
近年来，少镜头动作识别受到越来越多的关注。它一般采用元学习范式。在这一领域，基于有限的样本，克服类的重叠分布和异常值仍然是一个具有挑战性的问题。我们认为，多模态和多视图的结合可以在信息互补的基础上改善这一问题。因此，我们提出了一种基于多模态融合的多视角蒸馏方法。首先，构建查询的概率提示选择器，根据支持的提示嵌入和查询的视觉嵌入之间的比较得分生成概率提示嵌入。其次，我们建立一个多视图。在每个视图中，我们将提示嵌入作为与视觉和全局或局部时间上下文一致的信息进行融合，以克服类和异常值的重叠分布。第三，我们对多视图进行距离融合，并相互提炼匹配能力，使模型对分布偏差具有更强的鲁棒性。我们的代码可在网址\url{https://github.com/cofly2014/MDMF}.

13.VeCAF: VLM-empowered Collaborative Active Finetuning with Training Objective Awareness

标题:VeCAF：具有训练目标意识的、由 VLM 支持的协作式主动微调技术

author:Rongyu Zhang, Zefan Cai, Huanrui Yang, Zidong Liu, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Baobao Chang, Yuan Du, Li Du, Shanghang Zhang

publish:12 pages

date Time:2024-01-15

paper pdf:http://arxiv.org/pdf/2401.07853v1

摘要：
微调预训练视觉模型（PVM）是学习下游视觉任务的常用技术。使用随机采样数据点的传统微调过程会降低训练效率。针对这一缺点，我们提出了一种新方法，即 VLM 驱动的协作主动微调（VeCAF）。VeCAF 通过结合被调整模型的训练目标来优化参数数据选择模型。这将有效地引导 PVM 通过改进数据和计算效率来实现性能目标。由于视觉语言模型（VLM）通过在图像和语言领域之间建立稳健的联系取得了显著的进步，因此我们利用文本嵌入空间固有的丰富语义，并利用预训练 VLM 模型的文本嵌入来增强 PVM 图像特征，从而实现更好的数据选择和微调。此外，文本域增强的灵活性使 VeCAF 能够在没有外部增强数据的情况下处理分布外场景。广泛的实验表明，VeCAF 在分布内和分布外图像分类任务中都具有领先的性能和高效率，优于基线算法。在 ImageNet 上，与完全微调相比，VeCAF 达到目标性能所需的训练批次减少了 3.3 倍，与 SOTA 方法相比，在批次数量相同的情况下，准确率提高了 2.8%。

14.FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos

标题:FiGCLIP：通过密集注释的视频实现细粒度 CLIP 自适应

author:Darshan Singh S, Zeeshan Khan, Makarand Tapaswi

date Time:2024-01-15

paper pdf:http://arxiv.org/pdf/2401.07669v1

摘要：
尽管对比语言图像预训练（CLIP）通过学习高度语义化和概括化的表征表现出了令人印象深刻的性能，但最近的研究却暴露出了其句法特性的根本缺陷，其中包括解释需要组合推理的细粒度属性、动作、空间关系、状态和细节。其中一个原因是，自然字幕通常无法捕捉场景的所有视觉细节。这就导致未处理的视觉概念被错误地归属到错误的词语中。而汇集的图像和文本特征最终会变成一袋单词，从而丢失句法信息。在这项工作中，我们要问：是否有可能在不影响语义特性的情况下增强 CLIP 的细粒度和语法能力？我们通过在一个高质量、全面且相对较小的数据集上对 CLIP 进行高效适配，证明了这一点。我们在视频情境识别数据集 VidSitu 上演示了我们的适配策略，该数据集标注了动词和丰富的语义角色标签（SRL）。我们利用 SRL 和动词信息创建基于规则的详细字幕，确保字幕捕捉到大部分视觉概念。这些注释与硬否定和分层损失相结合，使我们能够学习一种强大的视觉表示法，即细粒度 CLIP（FiGCLIP），它既能保持语义理解，又能注重细节。我们对五种不同的视觉语言任务进行了微调和零镜头设置评估，结果显示，与基础 CLIP 模型相比，FiGCLIP 有了持续的改进。