文章目录~
- 1.VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge
- 2.Joint Vision-Language Social Bias Removal for CLIP
- 3.CLIP Unreasonable Potential in Single-Shot Face Recognition
- 4.A Survey of Medical Vision-and-Language Applications and Their Techniques
- 5.ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
- 6.Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment
- 7.VL-Uncertainty: Detecting Hallucination in Large Vision-Language Model via Uncertainty Estimation
- 8.Understanding Multimodal LLMs: the Mechanistic Interpretability of Llava in Visual Question Answering
- 9.Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection
- 10.Large Vision-Language Models for Remote Sensing Visual Question Answering
- 11.LLaVA-CoT: Let Vision Language Models Reason Step-by-Step
- 12.COOD: Concept-based Zero-shot OOD Detection
1.VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge
标题:VILA-M3:利用医学专家知识增强视觉语言模型
author:Vishwesh Nath, Wenqi Li, Dong Yang, Andriy Myronenko, Mingxin Zheng, Yao Lu, Zhijian Liu, Hongxu Yin, Yee Man Law, Yucheng Tang, Pengfei Guo, Can Zhao, Ziyue Xu, Yufan He, Greg Heinrich, Stephen Aylward, Marc Edgar, Michael Zephyr, Pavlo Molchanov, Baris Turkbey, Holger Roth, Daguang Xu
date Time:2024-11-19
paper pdf:http://arxiv.org/pdf/2411.12915v1
摘要:
通用视觉语言模型(VLM)在计算机视觉领域取得了长足进步,但在医疗保健等专业领域却显得力不从心,因为在这些领域,专家知识至关重要。在传统的计算机视觉任务中,创造性的或近似的答案可能是可以接受的,但在医疗保健领域,精确性是最重要的。目前的大型多模态模型,如 Gemini 和 GPT-4o 等,由于依赖于记忆的互联网知识,而不是医疗保健领域所需的细致入微的专业知识,因此不足以胜任医疗任务。VLM 的训练通常分为三个阶段:视觉预训练、视觉语言预训练和指令微调(IFT)。IFT 通常使用通用数据和医疗数据的混合数据。相比之下,我们提出,对于医疗 VLM 而言,第四阶段的专门 IFT 是必要的,它侧重于医疗数据,并包括来自领域专家模型的信息。为医疗用途开发的领域专家模型至关重要,因为这些模型是专门为某些临床任务而训练的,例如通过分割和分类来检测肿瘤和分类异常,从而学习医疗数据的细粒度特征$–这些特征往往过于复杂,VLM 无法有效捕捉,尤其是在放射学领域。本文为医疗 VLM 引入了一个新框架 VILA-M3,它通过专家模型利用领域知识。通过实验,我们展示了最新的(SOTA)性能,与之前的 SOTA 模型 Med-Gemini 相比,平均提高了约 9%,与根据特定任务训练的模型相比,平均提高了约 6%。我们的方法强调了领域专业知识在为医疗应用创建精确、可靠的 VLM 方面的重要性。
2.Joint Vision-Language Social Bias Removal for CLIP
标题:联合视觉语言消除 CLIP 的社会偏见
author:Haoyu Zhang, Yangyang Guo, Mohan Kankanhalli
date Time:2024-11-19
paper pdf:http://arxiv.org/pdf/2411.12785v1
摘要:
视觉语言(V-L)预训练模型(如 CLIP)在各种下游任务中表现出了突出的能力。尽管如此,V-L 模型因其固有的社会偏见而受到限制。一个典型的例子是,V-L 模型经常会对特定人群产生有偏见的预测,这大大削弱了它们在现实世界中的适用性。现有的方法致力于通过从模型嵌入中移除有偏见的属性信息来缓解 V-L 模型中的社会偏见问题。然而,在重新审视这些方法后,我们发现在去除偏差的同时,V-L 对齐能力往往大打折扣。我们随后发现,这种性能下降源于图像和文本嵌入中不平衡的去偏差。为了解决这个问题,我们提出了一种新颖的 V-L 去偏框架,用于对齐图像和文本偏差,然后从两种模式中去除偏差。通过这种方法,我们的方法在保持去偏嵌入中的 V-L 对齐的同时,实现了多模态偏差缓解。此外,我们还提出了一种新的评估方案,可以:1)全面量化模型的去偏差和 V-L 对齐能力;2)评估社会偏差消除模型的通用性。我们相信,这项工作将为今后解决 CLIP 中社会偏见问题的研究提供新的见解和指导。
3.CLIP Unreasonable Potential in Single-Shot Face Recognition
标题:CLIP 单镜头人脸识别的不合理潜力
author:Nhan T. Luu
date Time:2024-11-19
paper pdf:http://arxiv.org/pdf/2411.12319v2
摘要:
人脸识别是计算机视觉领域的一项核心任务,旨在通过分析面部图案和特征来识别和验证个人。这一领域与人工智能图像处理和机器学习有交叉,可应用于安全认证和个性化。传统的人脸识别方法主要是捕捉眼睛、鼻子和嘴巴等面部特征,然后将这些特征与数据库进行比对,以验证身份。然而,由于个人面部特征的相似性,高误报率等挑战一直存在。最近,OpenAI 开发的对比语言图像预训练(CLIP)模型将自然语言处理与视觉任务联系起来,使其能够跨模态通用,从而取得了可喜的进步。利用 CLIP 的视觉语言对应性和单次微调,该模型在部署后无需进行大量面部特征提取,即可实现较低的误判率。这种整合表明,CLIP 有潜力解决人脸识别模型性能方面的长期问题,而不会使我们的训练范式复杂化。
4.A Survey of Medical Vision-and-Language Applications and Their Techniques
标题:医学视觉语言应用及其技术概览
author:Qi Chen, Ruoshan Zhao, Sinuo Wang, Vu Minh Hieu Phan, Anton van den Hengel, Johan Verjans, Zhibin Liao, Minh-Son To, Yong Xia, Jian Chen, Yutong Xie, Qi Wu
date Time:2024-11-19
paper pdf:http://arxiv.org/pdf/2411.12195v1
摘要:
医学视觉语言模型(MVLM)因其能够提供自然语言界面来解释复杂的医学数据而备受关注。它们的应用范围广泛,不仅有可能提高诊断准确性,为患者做出更好的决策,还能通过更有效地分析大型数据集,为加强公共卫生监测、疾病监控和政策制定做出贡献。MVLMS 将自然语言处理与医学图像整合在一起,使人们能够更全面地了解医学图像及其相应文本信息的来龙去脉。与在各种非专业数据集上训练的一般视觉和语言模型不同,MVLM 专门针对医疗领域而设计,可自动提取和解释医疗图像和文本报告中的关键信息,为临床决策提供支持。MVLM 的热门临床应用包括自动生成医疗报告、医疗视觉问题解答、医疗多模态分割、诊断和预后以及医疗图像文本检索。在此,我们将全面介绍 MVLM 及其应用的各种医疗任务。我们对各种视觉语言模型架构进行了详细分析,重点关注它们在跨模态整合/利用医学视觉和文本特征方面的不同策略。我们还研究了用于这些任务的数据集,并根据标准化评估指标比较了不同模型的性能。此外,我们还强调了潜在的挑战,并总结了未来的研究趋势和方向。论文和代码全文可在以下网址获取:https://github.com/YtongXie/Medical-Vision-and-Language-Tasks-and-Methodologies-A-Survey。
5.ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
标题:ITACLIP:利用图像、文本和架构增强功能提高免训练语义分割能力
author:M. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin
date Time:2024-11-18
paper pdf:http://arxiv.org/pdf/2411.12044v1
摘要:
基础视觉语言模型(VLM)的最新进展重塑了计算机视觉任务的评估范式。这些基础模型,尤其是 CLIP,加速了开放词汇计算机视觉任务的研究,包括开放词汇语义分割(OVSS)。尽管初步成果令人鼓舞,但 VLM 的密集预测能力仍需进一步提高。在本研究中,我们通过引入新模块和修改来提高 CLIP 的语义分割性能:1) 改变 ViT 最后一层的架构,并将中间层的注意力图与最后一层结合起来;2) 图像工程:应用数据增强技术来丰富输入图像的表现形式;3) 使用大型语言模型 (LLM) 为每个类名生成定义和同义词,以充分利用 CLIP 的开放词汇能力。我们的免训练方法 ITACLIP 在 COCO-Stuff、COCO-Object、Pascal Context 和 Pascal VOC 等分割基准上的表现优于目前最先进的方法。我们的代码见 https://github.com/m-arda-aydn/ITACLIP。
6.Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment
标题:通过渐进式概念-瓶颈驱动的对齐,增强视觉语言模型的安全性
author:Zhendong Liu, Yuanbi Nie, Yingshui Tan, Xiangyu Yue, Qiushi Cui, Chongjun Wang, Xiaoyong Zhu, Bo Zheng
publish:arXiv admin note: substantial text overlap with arXiv:2405.13581
date Time:2024-11-18
paper pdf:http://arxiv.org/pdf/2411.11543v1
摘要:
得益于大型语言模型(LLM)的强大功能,与 LLM 相连接的预训练视觉编码器模型形成了视觉语言模型(VLM)。然而,最近的研究表明,VLMs 中的视觉模式非常脆弱,攻击者可以通过视觉传输内容绕过 LLMs 中的安全对齐,发起有害攻击。为了应对这一挑战,我们提出了一种基于概念的渐进式对齐策略–PSA-VLM,它将安全模块作为概念瓶颈,以加强视觉模式的安全对齐。通过将模型预测与特定的安全概念对齐,我们提高了对风险图像的防御能力,增强了可解释性和可控性,同时对一般性能的影响最小。我们的方法通过两阶段训练实现。第一阶段的低计算成本带来了非常有效的性能提升,而第二阶段对语言模型的微调则进一步提高了安全性能。我们的方法在流行的 VLM 安全基准上取得了最先进的结果。
7.VL-Uncertainty: Detecting Hallucination in Large Vision-Language Model via Uncertainty Estimation
标题:VL-Uncertainty:通过不确定性估计检测大型视觉语言模型中的幻觉
author:Ruiyang Zhang, Hu Zhang, Zhedong Zheng
date Time:2024-11-18
paper pdf:http://arxiv.org/pdf/2411.11919v2
摘要:
鉴于大型视觉语言模型(LVLM)与单模态 LLM 相比处理的信息量更大,检测 LVLM 中的幻觉需要花费更多的人力和时间,从而引发更广泛的安全问题。本文介绍了 VL-Uncertainty,这是首个基于不确定性的 LVLM 幻觉检测框架。与大多数需要地面实况或伪注释的现有方法不同,VL-Uncertainty 利用不确定性作为内在指标。我们通过分析语义等同但受到干扰的提示(包括视觉和文本数据)的预测差异来衡量不确定性。当 LVLM 高度自信时,它们会对语义等同的查询做出一致的回应。然而,在不确定的情况下,目标 LVLM 的响应会变得更加随机。考虑到语义相似但措辞不同的答案,我们根据其语义内容对 LVLM 的回答进行聚类,然后计算聚类分布熵作为检测幻觉的不确定性度量。我们在四个基准的 10 个 LVLM(涵盖自由形式和多选任务)上进行了大量实验,结果表明 VL-Uncertainty 在幻觉检测方面明显优于强基准方法。
8.Understanding Multimodal LLMs: the Mechanistic Interpretability of Llava in Visual Question Answering
标题:理解多模态 LLM:视觉问题解答中 Llava 的机制可解释性
author:Zeping Yu, Sophia Ananiadou
publish:preprint
date Time:2024-11-17
paper pdf:http://arxiv.org/pdf/2411.10950v1
摘要:
了解大语言模型(LLM)背后的机制对于设计改进的模型和策略至关重要。最近的研究对文本大型语言模型(textual LLMs)的机制提出了有价值的见解,但对多模态大型语言模型(Multi-modal Large Language Models,MLLMs)的机制仍未充分探索。在本文中,我们运用机制可解释性方法分析了第一个多模态大型语言模型 Llava 中的视觉问题解答(VQA)机制。我们比较了 VQA 和文本 QA(TQA)在颜色回答任务中的机制,发现:a)VQA 的机制类似于 TQA 中观察到的上下文学习机制;b)将视觉嵌入投射到嵌入空间时,视觉特征表现出显著的可解释性;c)Llava 在视觉指令调整期间增强了相应文本 LLM Vicuna 的现有能力。基于这些发现,我们开发了一种可解释性工具,帮助用户和研究人员确定最终预测的重要视觉位置,从而帮助理解视幻觉。与现有的可解释性方法相比,我们的方法展示了更快更有效的结果。代码:\url{https://github.com/zepingyu0512/llava-mechanism}
9.Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection
标题:利用 VLM 本地化和语义进行开放词汇动作检测
author:Wentao Bao, Kai Li, Yuxiao Chen, Deep Patel, Martin Renqiang Min, Yu Kong
publish:WACV 2025 Accepted
date Time:2024-11-17
paper pdf:http://arxiv.org/pdf/2411.10922v1
摘要:
动作检测旨在从空间和时间上检测(识别和定位)视频中的人类动作。现有方法侧重于封闭环境,即在固定动作类别的视频中训练和测试动作检测器。然而,这种受限的设置在开放世界中并不可行,因为测试视频不可避免地会超出训练好的动作类别。在本文中,我们要解决的是实用而又具有挑战性的开放词汇动作检测(OVAD)问题。该问题旨在检测测试视频中的任何动作,同时在固定的动作类别集上训练模型。为了实现这种开放词汇能力,我们提出了一种新方法 OpenMixer,它利用了基于查询的检测转换器(DETR)系列中大型视觉语言模型(VLM)的固有语义和可定位性。具体来说,OpenMixer 由空间和时间 OpenMixer 模块(S-OMB 和 T-OMB)以及动态融合对齐(DFA)模块组成。这三个组件共同享有来自预训练 VLM 的强大泛化功能和来自 DETR 设计的端到端学习功能。此外,我们还在各种设置下建立了 OVAD 基准,实验结果表明,OpenMixer 在检测已见和未见动作方面的表现优于基线。我们在 https://github.com/Cogito2012/OpenMixer 上发布了代码、模型和数据集拆分。
10.Large Vision-Language Models for Remote Sensing Visual Question Answering
标题:用于遥感视觉问题解答的大型视觉语言模型
author:Surasakdi Siripong, Apirak Chaiyapan, Thanakorn Phonchai
date Time:2024-11-16
paper pdf:http://arxiv.org/pdf/2411.10857v1
摘要:
遥感可视化问题解答(RSVQA)是一项具有挑战性的任务,涉及解释复杂的卫星图像以回答自然语言问题。传统方法通常依赖于独立的视觉特征提取器和语言处理模型,这可能会耗费大量计算资源,而且处理开放式问题的能力有限。在本文中,我们提出了一种利用生成式大型视觉语言模型(LVLM)来简化 RSVQA 流程的新方法。我们的方法包括两步训练策略:领域自适应预训练和基于提示的微调。这种方法使 LVLM 能够通过视觉和文本输入条件生成自然语言答案,而无需预定义的答案类别。我们在 RSVQAxBEN 数据集上对我们的模型进行了评估,结果表明该模型的性能优于最先进的基线模型。此外,一项人类评估研究表明,我们的方法生成的答案更准确、更相关、更流畅。这些结果凸显了生成式 LVLM 在推动遥感分析领域发展方面的潜力。
11.LLaVA-CoT: Let Vision Language Models Reason Step-by-Step
标题:LLaVA-CoT:让视觉语言模型逐步推理
author:Guowei Xu, Peng Jin, Hao Li, Yibing Song, Lichao Sun, Li Yuan
date Time:2024-11-15
paper pdf:http://arxiv.org/pdf/2411.10440v2
摘要:
正如 OpenAI 的 o1 等模型所展示的那样,大型语言模型在推理能力方面取得了长足进步,特别是通过推理时间扩展。然而,当前的视觉语言模型(VLM)在执行系统化和结构化推理方面往往力不从心,尤其是在处理复杂的视觉问题解答任务时。在这项工作中,我们介绍了 LLaVA-CoT,这是一种新颖的视觉语言模型,旨在进行自主多阶段推理。与思维链提示不同,LLaVA-CoT 可独立完成总结、视觉解读、逻辑推理和结论生成等连续阶段。这种结构化方法使 LLaVA-CoT 在推理密集型任务中的精确度得到显著提高。为此,我们编译了 LLaVA-CoT-100k 数据集,整合了来自各种可视化问题解答来源的样本,并提供了结构化推理注释。此外,我们还提出了一种推理时间阶段级波束搜索方法,从而实现了有效的推理时间扩展。值得注意的是,LLaVA-CoT 只用了 100k 个训练样本和一种简单而有效的推理时间扩展方法,不仅在广泛的多模态推理基准上比其基础模型高出 8.9%,而且还超过了更大甚至闭源模型的性能,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。
12.COOD: Concept-based Zero-shot OOD Detection
标题:COOD:基于概念的零镜头 OOD 检测
author:Zhendong Liu, Yi Nian, Henry Peng Zou, Li Li, Xiyang Hu, Yue Zhao
date Time:2024-11-15
paper pdf:http://arxiv.org/pdf/2411.13578v1
摘要:
在复杂的多标签环境中,模型如何才能在不进行大量再训练的情况下有效地检测出分布偏离(OOD)样本?现有的 OOD 检测方法难以捕捉多标签环境中固有的错综复杂的语义关系和标签共现,通常需要大量的训练数据,而且无法泛化到未见过的标签组合。虽然大型语言模型已经彻底改变了零镜头 OOD 检测,但它们主要侧重于单标签场景,在处理样本可能与多个相互依赖的标签相关联的真实世界任务方面存在严重不足。为了应对这些挑战,我们推出了 COOD,一种新颖的零镜头多标签 OOD 检测框架。COOD 利用预先训练好的视觉语言模型,通过基于概念的标签扩展策略和新的评分函数对其进行增强。通过用每个标签的正负概念来丰富语义空间,我们的方法对复杂的标签依赖关系进行建模,无需额外训练即可精确区分 OOD 样本。广泛的实验证明,我们的方法明显优于现有方法,在 VOC 和 COCO 数据集上实现了约 95% 的平均 AUROC,同时在不同数量的标签和不同类型的 OOD 样本中保持了稳健的性能。