AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.08.15-2024.08.20

最新推荐文章于 2024-09-11 14:42:31 发布

小小帅AIGC

最新推荐文章于 2024-09-11 14:42:31 发布

阅读量739

点赞数 19

分类专栏： VLM论文时报文章标签：人工智能语言模型自然语言处理 VLM LLM 视觉语言模型

本文链接：https://blog.csdn.net/weixin_44362044/article/details/141753871

版权

VLM论文时报专栏收录该内容

43 篇文章 22 订阅

订阅专栏

文章目录～

1.Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification
2.Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
3.HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments
4.TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning
5.MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval
6.SANER: Annotation-free Societal Attribute Neutralizer for Debiasing CLIP
7.LongVILA: Scaling Long-Context Visual Language Models for Long Videos
8.Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models
9.CLIPCleaner: Cleaning Noisy Labels with CLIP
10.Cross-composition Feature Disentanglement for Compositional Zero-shot Learning
11.Moonshine: Distilling Game Content Generators into Steerable Generative Models
12.Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design
13.CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination
14.Segment Anything with Multiple Modalities
15.DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models
16.Beyond the Hype: A dispassionate look at vision-language models in medical scenario
17.TextCAVs: Debugging vision models using text

1.Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

标题:利用注意力头屏蔽进行分布外检测，实现多模态文档分类

author:Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson

date Time:2024-08-20

paper pdf:http://arxiv.org/pdf/2408.11237v1

摘要：
在机器学习应用中，检测失散（OOD）数据对于降低模型过度自信的风险，从而提高部署系统的可靠性和安全性至关重要。现有的大多数 OOD 检测方法主要针对单模态输入，如图像或文本。在多模态文档方面，这些方法的性能明显缺乏广泛的研究，它们主要是针对计算机视觉任务开发的。我们针对文档分类系统中的多模态 OOD 任务提出了一种新方法，称为注意力头屏蔽（AHM）。我们的实证结果表明，所提出的 AHM 方法优于所有最先进的方法，与现有的解决方案相比，它显著降低了假阳性率（FPR），最高可达 7.5%。这种方法可以很好地推广到文档等多模态数据中，其中视觉和文本信息在相同的变换器架构下建模。为了解决高质量公开文档数据集稀缺的问题，并鼓励对文档 OOD 检测的进一步研究，我们引入了新的文档 AI 数据集 FinanceDocs。我们的代码和数据集均可公开获取。

2.Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

标题:Open-FinLLMs：用于金融应用的开放式多模态大语言模型

author:Qianqian Xie, Dong Li, Mengxi Xiao, Zihao Jiang, Ruoyu Xiang, Xiao Zhang, Zhengyu Chen, Yueru He, Weiguang Han, Yuzhe Yang, Shunian Chen, Yifei Zhang, Lihang Shen, Daniel Kim, Zhiwei Liu, Zheheng Luo, Yangyang Yu, Yupeng Cao, Zhiyang Deng, Zhiyuan Yao, Haohang Li, Duanyu Feng, Yongfu Dai, VijayaSai Somasundaram, Peng Lu, Yilun Zhao, Yitao Long, Guojun Xiong, Kaleb Smith, Honghai Yu, Yanzhao Lai, Min Peng, Jianyun Nie, Jordan W. Suchow, Xiao-Yang Liu, Benyou Wang, Alejandro Lopez-Lira, Jimin Huang, Sophia Ananiadou

publish:33 pages, 13 figures

date Time:2024-08-20

paper pdf:http://arxiv.org/pdf/2408.11878v1

摘要：
大型语言模型（LLMs）在金融领域有着先进的应用，但它们往往缺乏足够的金融知识，在处理涉及表格和时间序列数据等多模态输入的任务时举步维艰。为了解决这些局限性，我们引入了一系列金融 LLMs：textit{Open-FinLLMs}。我们从 FinLLaMA 开始，在一个 520 亿标记的金融语料库上进行预训练，将文本、表格和时间序列数据结合起来，嵌入全面的金融知识。然后，我们使用 573K 条金融指令对 FinLLaMA 进行了指令微调，最终形成了 FinLLaMA-instruct，从而提高了任务性能。最后，我们介绍了 FinLLaVA，这是一种使用 143 万条图像-文本指令训练的多模态 LLM，用于处理复杂的金融数据类型。广泛的评估结果表明，在 19 个数据集和 4 个数据集上，FinLLaMA 在零次和少次访问设置下的性能分别优于 LLaMA3-8B、LLaMA3.1-8B 和 BloombergGPT。在 15 个数据集上，FinLLaMA-instruct 的表现优于 GPT-4 和其他金融 LLM。在 4 项多模态任务中，FinLLaVA 在理解表格和图表方面表现出色。此外，FinLLaMA 还在模拟交易中取得了令人印象深刻的夏普比率（Sharpe Ratios），彰显了其强大的金融应用能力。我们将不断维护和改进我们的模型和基准，以支持学术界和业界的持续创新。

3.HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments

标题:HiRED：在资源受限的环境中，通过注意力引导丢弃标记来高效推断高分辨率视觉语言模型

author:Kazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji

publish:Preprint

date Time:2024-08-20

paper pdf:http://arxiv.org/pdf/2408.10945v1

摘要：
高分辨率视觉语言模型（VLM）已被广泛应用于多模态任务中，通过保留详细的图像信息来提高准确性。然而，由于要对输入图像的多个分区进行编码，这些模型往往会产生过多的视觉标记。处理这些过量的视觉标记在计算上具有挑战性，尤其是在使用商品 GPU 的资源受限环境中。为了在满足资源限制的同时支持高分辨率图像，我们提出了高分辨率早期丢弃（High-Resolution Early Dropping，HiRED）方案，这是一种在大语言模型（Large Language Model，LLM）阶段之前在固定标记预算内运行的标记丢弃方案。HiRED 可以即插即用的方式与现有的高分辨率 VLM 集成，因为它不需要额外的训练，同时还能保持卓越的准确性。我们在初始层战略性地使用视觉编码器的注意力来评估每个图像分区的视觉内容，并相应地分配标记预算。然后，我们利用最后一层的注意力，在分配的预算内从每个分区中选择最重要的视觉标记，放弃其他标记。根据经验，在英伟达 TESLA P40 GPU 上应用于 LLaVA-Next-7B 时，HiRED 的标记预算为 20%，标记生成吞吐量提高了 4.7，首次标记生成延迟减少了 15 秒，单次推理节省了 2.3 GB 的 GPU 内存。

4.TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning

标题:TDS-CLIP：用于图像到视频转移学习的时差侧网络

author:Bin Wang, Wenqian Wang

date Time:2024-08-20

paper pdf:http://arxiv.org/pdf/2408.10688v1

摘要：
最近，大规模预训练视觉语言模型（如 CLIP）因其强大的代表性而备受关注。这激励了研究人员将这些大型预训练模型中的知识转移到其他特定任务模型中，如视频动作识别（VAR）模型，特别是通过利用侧网络来提高参数高效微调（PEFT）的效率。然而，目前 VAR 中的转移方法倾向于以最小的成本将大型预训练模型中的冻结知识直接转移到动作识别网络中，而不是利用动作识别模型本身的时间建模能力。因此，在本文中，我们提出了一种内存效率高的时差侧网络（TDS-CLIP）来平衡知识转移和时差建模，避免冻结参数模型中的反向传播。具体来说，我们引入了时差适配器（TD-Adapter），它能有效捕捉运动特征的局部时差，从而加强模型的全局时差建模能力。此外，我们还设计了侧运动增强适配器（SME-Adapter）来引导所提出的侧网络有效学习视频中丰富的运动信息，从而提高侧网络捕捉和学习运动信息的能力。我们在三个基准数据集上进行了广泛的实验，包括 Something-Something V1、V2 和 Kinetics-400。实验结果表明，我们的方法取得了具有竞争力的性能。

5.MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval

标题:MUSE：Mamba 是文本-视频检索的高效多尺度学习器

author:Haoran Tang, Meng Cao, Jinfa Huang, Ruyang Liu, Peng Jin, Ge Li, Xiaodan Liang

publish:8 pages

date Time:2024-08-20

paper pdf:http://arxiv.org/pdf/2408.10575v1

摘要：
文本-视频检索（TVR）旨在将相关视频内容与相应的自然语言查询进行对齐和关联。现有的 TVR 方法大多基于大规模预训练的视觉语言模型（如 CLIP）。然而，由于 CLIP 固有的朴素结构，很少有 TVR 方法能探索多尺度表征，而多尺度表征能提供更丰富的上下文信息，以实现更透彻的理解。为此，我们提出了 MUSE，一种具有线性计算复杂度的多尺度曼巴，用于高效的跨分辨率建模。具体来说，多尺度表征是通过在最后一个单尺度特征图上应用特征金字塔生成的。然后，我们利用 Mamba 结构作为高效的多尺度学习器，共同学习按尺度划分的表征。此外，我们还对不同的模型结构和设计进行了全面研究。在三个流行基准上取得的广泛结果验证了 MUSE 的优越性。

6.SANER: Annotation-free Societal Attribute Neutralizer for Debiasing CLIP

标题:SANER：无注释社会属性中和器，用于消除 CLIP 差异

author:Yusuke Hirota, Min-Hung Chen, Chien-Yi Wang, Yuta Nakashima, Yu-Chiang Frank Wang, Ryo Hachiuma

date Time:2024-08-19

paper pdf:http://arxiv.org/pdf/2408.10202v1

摘要：
众所周知，大规模视觉语言模型（如 CLIP）在受保护属性（如性别和年龄）方面存在有害的社会偏见。本文旨在解决 CLIP 中的社会偏见问题。虽然之前的研究已经提出了通过对抗学习或测试时间预测来消除社会偏见，但我们对这些工作的综合研究发现了两个关键的局限性：1) 当属性信息在输入中明确披露时，属性信息会丢失；2）在去偏差过程中使用属性注释。为了减轻 CLIP 中的社会偏差并同时克服这些局限性，我们引入了一种名为 SANER（社会属性中和器）的简单而有效的去除法，它只消除 CLIP 文本特征中属性中性描述的属性信息。实验结果表明，SANER 不需要属性注释，并能保留特定属性描述的原始信息，与现有方法相比，SANER 显示出更优越的去除法能力。

7.LongVILA: Scaling Long-Context Visual Language Models for Long Videos

标题:LongVILA：为长视频扩展长语境视觉语言模型

author:Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han

publish:Code and models are available at
https://github.com/NVlabs/VILA/blob/main/LongVILA.md

date Time:2024-08-19

paper pdf:http://arxiv.org/pdf/2408.10188v3

摘要：
长语境能力对于多模态基础模型，尤其是长视频理解至关重要。我们通过共同设计算法和系统，推出了长语境视觉语言模型的全栈解决方案 LongVILA。在模型训练方面，我们将现有的视觉语言模型升级为支持长视频理解的模型，增加了两个额外的阶段，即长上下文扩展和长监督微调。然而，对长视频的训练需要大量的计算和内存。我们引入了长上下文多模式序列并行（MM-SP）系统，该系统可高效并行处理长视频训练和推理，在 256 个 GPU 上实现 200 万上下文长度的训练，且无需任何梯度检查点。LongVILA 有效地将 VILA 的视频帧数从 8 帧扩展到 1024 帧，将长视频字幕评分从 2.00 分提高到 3.26 分（满分 5 分），在 1400 帧（274k 上下文长度）视频大海捞针中实现了 99.5% 的准确率。在 VideoMME 基准测试中，随着帧数的增加，LongVILA-8B 在长视频上的准确率也不断提高。此外，MM-SP 比环形序列并行快 2.1 - 5.7 倍，比上下文并行 + 张量并行的 Megatron 快 1.1 - 1.4 倍。此外，它还与 "抱脸变形金刚 "实现了无缝集成。

8.Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models

标题:整合大型语言模型和特定领域小型模型的分子图表示学习

author:Tianyu Zhang, Yuxiang Ren, Chengbin Hou, Hairong Lv, Xuegong Zhang

date Time:2024-08-19

paper pdf:http://arxiv.org/pdf/2408.10124v1

摘要：
分子性质预测是药物发现的重要基础。近年来，预训练的深度学习模型被广泛应用于这项任务。一些将先前生物领域知识纳入预训练框架的方法取得了令人瞩目的成果。然而，这些方法严重依赖生化专家，而检索和总结大量领域知识文献既耗时又昂贵。大型语言模型（LLM）在理解和有效提供一般知识方面表现出色。然而，它们在生成特定领域知识时偶尔会出现幻觉，缺乏精确性。相反，特定领域小模型（DSM）拥有丰富的领域知识，可以准确计算分子领域相关指标。然而，由于模型规模有限且功能单一，它们缺乏全面表征学习所需的知识广度。为了在分子性质预测中充分利用这两种方法的优势，我们提出了一种新的分子图表示学习框架，它整合了大语言模型和特定领域小模型（MolGraph-LarDo）。在技术上，我们设计了一个两阶段提示策略，其中引入 DSM 来校准 LLM 提供的知识，提高特定领域信息的准确性，从而使 LLM 能够为分子样本生成更精确的文本描述。随后，我们采用多模态配准方法来协调各种模态，包括分子图及其相应的描述性文本，以指导分子表征的预训练。大量实验证明了所提方法的有效性。

9.CLIPCleaner: Cleaning Noisy Labels with CLIP

标题:CLIPCleaner：使用 CLIP 清洁噪音标签

author:Chen Feng, Georgios Tzimiropoulos, Ioannis Patras

publish:Accepted to ACMMM2024

date Time:2024-08-19

paper pdf:http://arxiv.org/pdf/2408.10012v1

摘要：
带噪声标签学习（LNL）是机器学习领域面临的一项重大挑战。一些最广泛使用的方法会选择模型本身（训练中模型）具有高置信度的样本作为干净样本，例如 “小损失”，但这种方法会出现所谓的 "自我确认 "偏差。产生这种偏差的原因是，训练中模型至少有一部分是在噪声标签上训练出来的。此外，在分类情况下，还会出现额外的挑战，因为有些标签噪声是在视觉上非常相似的类别之间产生的（“硬噪声”）。为了应对这些挑战，本文提出了一种方法（textit{CLIPCleaner}），该方法利用强大的视觉语言（VL）模型 CLIP 来构建零镜头分类器，从而实现高效、离线、干净的样本选择。这样做的好处是，样本选择与训练中的模型脱钩，而且由于 CLIP 的训练方式，样本选择能够意识到类别之间的语义和视觉相似性。我们提供了理论依据和经验证据，以证明 CLIP 与传统的预训练模型相比在 LNL 方面的优势。与目前将迭代样本选择与各种技术相结合的方法相比，textit{CLIPCleaner}提供了一种简单的单步方法，在基准数据集上实现了具有竞争力或更优越的性能。据我们所知，这是 VL 模型首次被用于样本选择，以解决带噪标签学习（LNL）问题，凸显了其在该领域的潜力。

10.Cross-composition Feature Disentanglement for Compositional Zero-shot Learning

标题:用于合成零点学习的交叉合成特征分解

author:Yuxia Geng, Runkai Zhu, Jiaoyan Chen, Jintai Chen, Zhuo Chen, Xiang Chen, Can Xu, Yuxiang Wang, Xiaoliang Xu

publish:work in progress

date Time:2024-08-19

paper pdf:http://arxiv.org/pdf/2408.09786v1

摘要：
在组合零点学习（CZSL）中，基元（即属性和对象）视觉特征的分离已显示出卓越的效果。然而，由于属性（或对象）在与不同对象（或属性）组合时会产生特征差异，因此学习不同组合中通用的分离基元特征具有挑战性。为此，我们提出了跨组合特征解缠的解决方案，它将多个基元共享组合作为输入，并限制解缠的基元特征在这些组合中具有通用性。更具体地说，我们利用组合图来定义组合之间的整体基元共享关系，并在最近成功的大型预训练视觉语言模型（VLM）CLIP 的基础上构建了针对特定任务的架构，在 CLIP 的冻结文本编码器和图像编码器中分别插入了双跨组合解缠适配器（称为 L-Adapter 和 V-Adapter）。在三个流行的 CZSL 基准上进行的评估表明，我们提出的解决方案显著提高了 CZSL 的性能，其组件已通过固体烧蚀研究得到验证。

11.Moonshine: Distilling Game Content Generators into Steerable Generative Models

标题:月光：将游戏内容生成器提炼为可引导的生成模型

author:Yuhe Nie, Michael Middleton, Tim Merino, Nidhushan Kanagaraja, Ashutosh Kumar, Zhan Zhuang, Julian Togelius

date Time:2024-08-18

paper pdf:http://arxiv.org/pdf/2408.09594v1

摘要：
通过机器学习生成程序内容（PCGML）增强了游戏内容的创建，但在可控性和有限的训练数据方面仍存在挑战。本研究通过将构造性 PCG 算法提炼为可控 PCGML 模型来解决这些问题。我们首先使用构造性算法生成大量内容，并使用大型语言模型（LLM）对其进行标注。我们使用这些合成标签为两个 PCGML 模型（扩散模型和五元模型）的特定内容生成提供条件。这种神经网络提炼过程可确保生成与原始算法保持一致，同时通过纯文本引入可控性。我们将这种以文本为条件的 PCGML 定义为文本到游戏地图（T2M）任务，为普遍的文本到图像多模式任务提供了一种替代方案。我们将经过提炼的模型与基准构造算法进行了比较。我们对生成模型的多样性、准确性和质量进行了分析，证明了将构造方法提炼为可控文本条件 PCGML 模型的有效性。

12.Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design

标题:跨越新领域：基于知识增强的大语言模型提示，实现基于零镜头文本的新分子设计

author:Sakhinana Sagar Srinivas, Venkataramana Runkana

publish:Paper was accepted at R0-FoMo: Robustness of Few-shot and Zero-shot
Learning in Foundation Models, NeurIPS-2023. Please find the links:
https://sites.google.com/view/r0-fomo/accepted-papers?authuser=0 and
https://neurips.cc/virtual/2023/workshop/66517

date Time:2024-08-18

paper pdf:http://arxiv.org/pdf/2408.11866v1

摘要：
分子设计是一种多方面的方法，它利用计算方法和实验来优化分子特性，从而快速跟踪新药发现、创新材料开发和更高效的化学过程。最近，受类似于基础视觉语言模型的下一代人工智能任务的启发，出现了基于文本的分子设计。我们的研究探索了将知识增强的大型语言模型（LLM）提示用于零点文本条件下的全新分子生成任务。我们的方法使用特定任务的指令和一些演示，以解决在构建用于查询 LLM 以生成符合技术描述的分子的增强提示时所面临的分布转移挑战。我们的框架证明是有效的，在基准数据集上的表现优于最先进的（SOTA）基线模型。

13.CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination

标题:CLIP-CID：通过集群-实例区分实现高效的 CLIP 馏分

author:Kaicheng Yang, Tiancheng Gu, Xiang An, Haiqiang Jiang, Xiangzi Dai, Ziyong Feng, Weidong Cai, Jiankang Deng

publish:11 pages,8 figures

date Time:2024-08-18

paper pdf:http://arxiv.org/pdf/2408.09441v1

摘要：
对比语言图像预训练（CLIP）在各种任务中都取得了优异的成绩。然而，CLIP 的有效性在很大程度上依赖于大量的预训练数据语料库，导致计算资源的显著消耗。虽然知识提炼已被广泛应用于单一模态模型，但如何将知识提炼有效地扩展到具有大量数据的视觉语言基础模型，仍是一个相对尚未探索的问题。在本文中，我们介绍了 CLIP-CID，这是一种新颖的蒸馏机制，能有效地将知识从大型视觉语言基础模型转移到小型模型。我们最初提出了一种简单但高效的图像语义平衡方法，以减少转移学习偏差并提高蒸馏效率。这种方法从 LAION400M 中过滤掉了 43.7% 的图像-文本对，同时保持了卓越的性能。之后，我们利用聚类-实例判别促进知识从教师模型转移到学生模型，从而使学生模型能够获得对预训练数据的整体语义理解。实验结果表明，CLIP-CID 在各种下游任务（包括线性探测和零点分类）中都取得了一流的性能。

14.Segment Anything with Multiple Modalities

标题:使用多种模式分割任何内容

author:Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu

publish:Project page: https://xiaoaoran.github.io/projects/MM-SAM

date Time:2024-08-17

paper pdf:http://arxiv.org/pdf/2408.09085v1

摘要：
稳健而准确的场景分割已成为各种视觉识别和导航任务的核心功能之一。因此，最近开发出了通用遮罩分割的基础模型–“任意分割模型”（Segment Anything Model，SAM）。然而，SAM 在很大程度上是为单模态 RGB 图像量身定制的，限制了其对广泛采用的传感器套件（如激光雷达加 RGB、深度加 RGB、热成像加 RGB 等）所捕获的多模态数据的适用性。我们开发了 MM-SAM，它是 SAM 的扩展和延伸，支持跨模态和多模态处理，可使用不同的传感器套件进行稳健、增强的分割。MM-SAM 有两个关键设计，即无监督的跨模态转移和弱监督的多模态融合，使标签高效和参数高效地适应各种传感器模态。它解决了三个主要挑战：1) 适应各种非 RGB 传感器的单模态处理；2) 通过传感器融合协同处理多模态数据；3) 针对不同下游任务的无掩码训练。广泛的实验表明，MM-SAM 的性能始终大大优于 SAM，证明了它在各种传感器和数据模式下的有效性和鲁棒性。

15.DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models

标题:DPA：双原型对齐，实现视觉语言模型的无监督适配

author:Eman Ali, Sathira Silva, Muhammad Haris Khan

date Time:2024-08-16

paper pdf:http://arxiv.org/pdf/2408.08855v1

摘要：
视觉语言模型（VLMs），如 CLIP，在零镜头图像分类方面已显示出显著的潜力。然而，将这些模型调整到新的领域仍然具有挑战性，尤其是在没有标签数据的无监督环境中。最近的研究提出了伪标签方法，利用无标签的目标数据，以无监督的方式调整 CLIP。然而，由于 CLIP 的视觉表征和文本表征之间的错位导致了伪标签的嘈杂，这些方法都难以奏效。本研究介绍了一种针对 VLM 的无监督域适应方法 DPA。DPA 引入了双重原型的概念，将其作为不同的分类器，并对其输出进行凸组合，从而构建出准确的伪标签。接下来，它对伪标签进行排序，以促进稳健的自我训练，尤其是在早期训练期间。最后，它通过将文本原型与图像原型对齐来解决视觉-文本错位问题，从而进一步提高适应性能。13 项下游视觉任务的实验表明，DPA 的性能明显优于零镜头 CLIP 和最先进的无监督适配基线。

16.Beyond the Hype: A dispassionate look at vision-language models in medical scenario

标题:超越炒作：冷静审视医疗场景中的视觉语言模型

author:Yang Nan, Huichi Zhou, Xiaodan Xing, Guang Yang

publish:10 pages

date Time:2024-08-16

paper pdf:http://arxiv.org/pdf/2408.08704v1

摘要：
大型视觉语言模型（LVLMs）的最新进展已在各种任务中展现出非凡的能力，引起了人工智能界的极大关注。然而，它们在医学等专业领域的性能和可靠性仍未得到充分评估。特别是，大多数评估过度集中于评估基于多模态数据的简单视觉问题解答（VQA）的 VLM，而忽略了 LVLM 的深度特性。在本研究中，我们引入了新型放射学视觉理解和问题解答基准 RadVUQA，以全面评估现有的 LVLM。RadVUQA 主要从五个方面验证 LVLM：1）解剖学理解，评估模型直观识别生物结构的能力；2）多模态理解，包括解释语言和视觉指令以产生预期结果的能力；3）定量和空间推理，评估模型的空间意识以及将定量分析与视觉和语言信息相结合的熟练程度；4）生理学知识，衡量模型理解器官和系统的功能和机制的能力；以及5）鲁棒性，评估模型处理未调和数据和合成数据的能力。结果表明，通用 LVLM 和医学专用 LVLM 都存在严重缺陷，多模态理解和定量推理能力较弱。我们的研究结果揭示了现有 LVLM 与临床医生之间的巨大差距，凸显了对更强大、更智能的 LVLM 的迫切需求。代码和数据集将在本文被接受后提供。

17.TextCAVs: Debugging vision models using text

标题:TextCAVs：使用文本调试视觉模型

author:Angus Nicolson, Yarin Gal, J. Alison Noble

publish:11 pages, 2 figures. Accepted at iMIMIC Workshop at MICCAI 2024

date Time:2024-08-16

paper pdf:http://arxiv.org/pdf/2408.08652v1

摘要：
基于概念的可解释性方法是深度学习模型的一种流行解释形式，它以高级人类可解释概念的形式提供解释。这些方法通常使用概念示例的探测数据集来查找概念激活向量（CAV）。这需要为这些概念标注数据–在医疗领域，这是一项昂贵的任务。我们引入了 TextCAVs：一种使用视觉语言模型（如 CLIP）创建 CAV 的新方法，允许仅使用概念的文本描述来创建解释，而不是图像示例。这样就降低了测试概念的成本，可以测试许多概念，用户也可以与模型互动，在想到新想法时对其进行测试，而不会因图像收集和注释而造成延迟。在早期实验结果中，我们证明了 TextCAVs 能为胸部 X 光数据集（MIMIC-CXR）和自然图像（ImageNet）提供合理的解释，而且这些解释可用于调试基于深度学习的模型。