文章目录~
- 1.AmCLR: Unified Augmented Learning for Cross-Modal Representations
- 2.STIV: Scalable Text and Image Conditioned Video Generation
- 3.DRUM: Learning Demonstration Retriever for Large MUlti-modal Models
- 4.DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
- 5.Hallucination Elimination and Semantic Enhancement Framework for Vision-Language Models in Traffic Scenarios
- 6.Attention Head Purification: A New Perspective to Harness CLIP for Domain Generalization
- 7.DiffCLIP: Few-shot Language-driven Multimodal Classifier
- 8.Ranking-aware adapter for text-driven image ordering with CLIP
- 9.VP-MEL: Visual Prompts Guided Multimodal Entity Linking
- 10.From Uncertainty to Trust: Enhancing Reliability in Vision-Language Models with Uncertainty-Guided Dropout Decoding
- 11.DenseVLM: A Retrieval and Decoupled Alignment Framework for Open-Vocabulary Dense Prediction
- 12.MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization
- 13.Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models
- 14.LVP-CLIP:Revisiting CLIP for Continual Learning with Label Vector Pool
- 15.CompCap: Improving Multimodal Large Language Models with Composite Captions
- 16.LinVT: Empower Your Image-level Large Language Model to Understand Videos
- 17.Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model
1.AmCLR: Unified Augmented Learning for Cross-Modal Representations
标题:AmCLR:跨模态表征的统一增强学习
author:Ajay Jagannath, Aayush Upadhyay, Anant Mehta
publish:16 pages, 2 figures
date Time:2024-12-10
paper pdf:http://arxiv.org/pdf/2412.07979v1
摘要:
对比学习已成为表征学习的重要框架,是 SimCLR 和 CLIP 等单模态和双模态应用的基础。为了解决批量规模依赖性大和双模性等基本限制,SogCLR 等方法利用随机优化来实现全局对比目标。受 SogCLR 效率和适应性的启发,我们引入了 AmCLR 和 xAmCLR 目标函数,专为双模视觉语言模型量身定制,以进一步增强对比学习的鲁棒性。AmCLR 集成了多种增强功能,包括文本解析和图像转换,以加强对比表征的对齐,并将批量大小限制在几百个样本,而不像 CLIP 那样需要 32,768 个样本才能产生合理的结果。xAmCLR 进一步扩展了这一范例,纳入了原始模态和增强模态之间的模态内对齐,以实现更丰富的特征学习。这些进步产生了一个更具弹性和通用性的对比学习过程,旨在克服扩展和增强多样性方面的瓶颈。由于我们的框架是在现有的 SogCLR 基础上构建的,因此我们能够以更少的计算资源展示更好的表征质量,为可扩展和稳健的多模态学习奠定基础。
2.STIV: Scalable Text and Image Conditioned Video Generation
标题:STIV:可扩展文本和图像条件视频生成
author:Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
date Time:2024-12-10
paper pdf:http://arxiv.org/pdf/2412.07730v1
摘要:
视频生成领域已经取得了令人瞩目的进步,但我们仍然迫切需要一个清晰、系统的方法来指导开发稳健、可扩展的模型。在这项工作中,我们进行了一项全面的研究,系统地探讨了模型架构、训练方法和数据整理策略之间的相互作用,最终提出了一种名为 STIV 的简单、可扩展的文本图像条件视频生成方法。我们的框架通过帧替换将图像条件整合到扩散变换器(DiT)中,同时通过联合图像-文本条件无分类器引导将文本条件整合进来。这种设计使 STIV 能够同时执行文本到视频(T2V)和文本-图像到视频(TI2V)任务。此外,STIV 还能轻松扩展到各种应用中,如视频预测、帧插值、多视图生成和长视频生成等。通过对 T2I、T2V 和 TI2V 进行全面的消融研究,STIV 尽管设计简单,却表现出了强大的性能。分辨率为 512 的 8.7B 模型在 VBench T2V 上达到 83.1,超过了 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先的开放和闭源模型。在分辨率为 512 的 VBench I2V 任务中,同样大小的模型也取得了 90.1 的一流成绩。通过提供用于构建尖端视频生成模型的透明且可扩展的方法,我们旨在增强未来研究的能力,并加快实现更通用、更可靠的视频生成解决方案。
3.DRUM: Learning Demonstration Retriever for Large MUlti-modal Models
标题:DRUM:大型多模态模型学习演示检索器
author:Ellen Yi-Ge, Jiechao Gao, Wei Han, Wei Zhu
date Time:2024-12-10
paper pdf:http://arxiv.org/pdf/2412.07619v1
摘要:
最近,大型语言模型(LLMs)在上下文学习(ICL)的帮助下,在处理新任务时表现出了令人印象深刻的能力。在大型视觉语言模型(LVLMs)的研究中,研究人员在实施 ICL 时通常会采用一些幼稚的策略,如在不同样本中固定演示,或通过视觉语言嵌入模型直接选择演示。这些方法并不能保证配置的演示符合 LVLM 的需要。为了解决这个问题,我们现在提出了一个新颖的框架–大型模态示范检索器(DRUM),它可以对视觉语言嵌入模型进行微调,以更好地满足 LVLM 的需求。首先,我们讨论了在给定嵌入模型的前提下,视觉语言任务的检索策略。我们建议将图像和文本嵌入合并,以提高检索性能。其次,我们建议通过 LVLM 的反馈对嵌入模型检索到的演示进行重新排序,并计算列表排序损失以训练嵌入模型。第三,我们提出了一种迭代演示挖掘策略,以改进嵌入模型的训练。通过在 3 类视觉语言任务和 7 个基准数据集上的广泛实验,我们的 DRUM 框架被证明可以通过检索更多合适的演示来有效提高 LVLM 的上下文学习性能。
4.DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
标题:DiffSensei:衔接多模式 LLM 和扩散模型以生成定制漫画
author:Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong
publish:The project page is https://jianzongwu.github.io/projects/diffsensei/
date Time:2024-12-10
paper pdf:http://arxiv.org/pdf/2412.07589v1
摘要:
故事可视化是根据文字描述创建视觉叙事的任务,文字到图像的生成模型已经取得了进展。然而,这些模型往往缺乏对角色外观和互动的有效控制,尤其是在多角色场景中。为了解决这些局限性,我们提出了一项新任务:\textbf{自定义漫画生成},并引入了 \textbf{DiffSensei},这是一个专门用于生成动态多角色控制漫画的创新框架。DiffSensei 集成了基于扩散的图像生成器和多模态大语言模型(MLLM),后者是一种文本兼容身份适配器。我们的方法采用了屏蔽交叉注意技术,可无缝整合字符特征,从而在不直接传输像素的情况下实现精确的布局控制。此外,基于 MLLM 的适配器还能调整角色特征,使其与特定面板的文本线索保持一致,从而灵活调整角色的表情、姿势和动作。我们还引入了 \textbf{MangaZero},这是一个专为这项任务定制的大型数据集,包含 43,264 页漫画和 427,147 个注释面板,支持跨连续帧的各种角色互动和动作的可视化。大量实验证明,DiffSensei 的性能优于现有模型,通过实现文本适应性角色定制,标志着漫画生成领域的重大进步。该项目的网页是 https://jianzongwu.github.io/projects/diffsensei/。
5.Hallucination Elimination and Semantic Enhancement Framework for Vision-Language Models in Traffic Scenarios
标题:交通场景中视觉语言模型的幻觉消除和语义增强框架
author:Jiaqi Fan, Jianhua Wu, Hongqing Chu, Quanbo Ge, Bingzhao Gao
date Time:2024-12-10
paper pdf:http://arxiv.org/pdf/2412.07518v1
摘要:
大型视觉语言模型(LVLM)在多模态理解和生成任务中表现出了非凡的能力。然而,这些模型偶尔也会生成幻觉文本,导致描述看似合理却与图像不符。这种现象可能会导致自动驾驶系统做出错误的驾驶决策。为了应对这一挑战,本文提出了一种即插即用的思维链修正方法–HCOENet,旨在消除对象幻觉,并为初始响应中忽略的关键对象生成增强描述。具体来说,HCOENet 采用交叉检查机制来过滤实体,并直接从给定图像中提取关键对象,从而丰富描述文本。POPE 基准的实验结果表明,HCOENet 可将 Mini-InternVL-4B 和 mPLUG-Owl3 模型的 F1 分数分别提高 12.58% 和 4.28%。此外,利用在开放校园场景中采集的图像得出的定性结果进一步突出了所提方法的实际应用性。与 GPT-4o 模型相比,HCOENet 在显著降低成本的同时,还实现了相当的描述性能。最后,针对交通场景创建了两个新型语义理解数据集 CODA_desc 和 nuScenes_desc,以支持未来的研究。代码和数据集可在 https://github.com/fjq-tongji/HCOENet 上公开获取。
6.Attention Head Purification: A New Perspective to Harness CLIP for Domain Generalization
标题:注意头净化:利用 CLIP 实现领域泛化的新视角
author:Yingfan Wang, Guoliang Kang
date Time:2024-12-10
paper pdf:http://arxiv.org/pdf/2412.07226v1
摘要:
领域泛化(Domain Generalization,DG)旨在从多个源领域中学习一个模型,从而在未见过的目标领域中获得令人满意的性能。由于 CLIP 具有出色的图像-文本配准和零误差性能,最近的研究将其引入了 DG 任务。以前的方法要么利用完全微调,要么利用提示学习范式来利用 CLIP 完成 DG 任务。这些方法的重点是避免CLIP中编码的原始知识发生灾难性遗忘,但却忽视了CLIP中编码的知识可能包含特定领域的线索,从而限制了其领域泛化性能。在本文中,我们提出了利用 CLIP 实现 DG 的新视角,即注意头净化。我们发现,不同的注意头可能会编码图像的不同属性,而适当地选择注意头可能会显著提高跨领域的性能。基于这些观察结果,我们从两个层面对 CLIP 的注意头进行了提纯,包括任务级提纯和领域级提纯。对于任务级净化,我们设计了头部感知 LoRA,使每个头部更适合我们考虑的任务。对于领域级净化,我们通过一个简单的门控策略来执行头部选择。我们利用 MMD loss 来提高头部特征的领域不变性,以强调更具通用性的属性/头部。在训练过程中,我们联合执行任务级净化和领域级净化。我们在各种具有代表性的 DG 基准上进行了实验。虽然实验很简单,但广泛的实验表明,我们的方法与之前的技术水平相比表现出色。
7.DiffCLIP: Few-shot Language-driven Multimodal Classifier
标题:DiffCLIP: 少量语言驱动的多模态分类器
author:Jiaqing Zhang, Mingxiang Cao, Xue Yang, Kai Jiang, Yunsong Li
date Time:2024-12-10
paper pdf:http://arxiv.org/pdf/2412.07119v1
摘要:
对比语言-图像预训练(CLIP)等视觉语言模型在分析带有语言信息的自然图像方面表现出色。然而,由于用于训练的图像-文本对数量有限,这些模型在应用于遥感等专业领域时往往会遇到挑战。为了解决这个问题,我们引入了 DiffCLIP,这是一个新颖的框架,它对 CLIP 进行了扩展,能有效地传递全面的语言驱动语义信息,从而对高维多模态遥感图像进行准确分类。DiffCLIP 是一种利用未标记图像进行预训练的少量学习方法。它采用无监督掩模扩散学习,无需标签即可捕捉不同模态的分布。模态共享图像编码器将多模态数据映射到一个统一的子空间中,提取具有跨模态一致参数的共享特征。训练有素的图像编码器通过将视觉表征与来自 CLIP 的类标签文本信息进行对齐,进一步增强了学习效果。通过整合这些方法,DiffCLIP 只需使用最少的图像-文本对,就能显著提高 CLIP 的性能。我们在广泛使用的高维多模态数据集上对 DiffCLIP 进行了评估,证明了它在处理少量注释分类任务时的有效性。与 CLIP 相比,DiffCLIP 在三个遥感数据集上的总体准确率提高了 10.65%,同时只使用了 2 张图像-文本对。代码已在 https://github.com/icey-zhang/DiffCLIP 上发布。
8.Ranking-aware adapter for text-driven image ordering with CLIP
标题:利用 CLIP 实现文本驱动图像排序的排名感知适配器
author:Wei-Hsiang Yu, Yen-Yu Lin, Ming-Hsuan Yang, Yi-Hsuan Tsai
publish:github link: https://github.com/uynaes/RankingAwareCLIP
date Time:2024-12-09
paper pdf:http://arxiv.org/pdf/2412.06760v1
摘要:
视觉语言模型(VLM)的最新进展使其在面部年龄估计和图像质量评估等需要定量概念的下游任务方面取得了重大进展,从而使 VLM 能够探索图像排序和检索等应用。然而,现有研究通常侧重于基于单张图像的推理,并严重依赖文本提示,这限制了它们从多张图像中学习全面理解的能力。为了解决这个问题,我们提出了一种有效而高效的方法,它将 CLIP 模型重构为学习排名任务,并引入了一种轻量级适配器来增强 CLIP,以实现文本引导的图像排名。具体来说,我们的方法结合了可学习的提示,以适应新的排序指令,以及具有排序感知注意力的辅助分支,利用文本条件下的视觉差异对图像排序进行额外的监督。我们的排名感知适配器在各种任务中的表现始终优于微调 CLIP,与为面部年龄估计和图像质量评估等特定任务而设计的最先进模型相比,我们的结果更具竞争力。总之,我们的方法主要侧重于通过单一指令对图像进行排序,这提供了一种自然而通用的方法来学习图像间的视觉差异,从而绕过了针对个别任务定制大量文本提示的需要。可用代码:https://github.com/uynaes/RankingAwareCLIP。
9.VP-MEL: Visual Prompts Guided Multimodal Entity Linking
标题:VP-MEL:视觉提示引导的多模态实体链接
author:Hongze Mi, Jinyuan Li, Xuying Zhang, Haoran Cheng, Jiahao Wang, Di Sun, Gang Pan
date Time:2024-12-09
paper pdf:http://arxiv.org/pdf/2412.06720v3
摘要:
多模态实体链接(MEL)是一项旨在将多模态上下文中的提及链接到知识库(KB)中相应实体的任务,近年来因其广泛的应用而备受关注。然而,现有的 MEL 方法通常严重依赖提及词作为检索线索,这限制了它们有效利用图像和文本信息的能力。在没有提及词的情况下,这种依赖性会带来巨大挑战,因为现有的 MEL 方法很难利用图像-文本对进行准确的实体链接。为了解决这些问题,我们引入了视觉提示引导的多模态实体链接(VP-MEL)任务。给定文本-图像对,VP-MEL 的目的是将图像中的标记区域(即视觉提示)链接到知识库中的相应实体。为了促进这项任务,我们提出了一个专门为 VP-MEL 设计的新数据集 VPWiki。此外,我们还提出了一个名为 FBMEL 的框架,该框架利用视觉提示增强视觉特征提取,并利用预训练的 Detective-VLM 模型捕捉潜在信息。在 VPWiki 数据集上的实验结果表明,在 VP-MEL 任务的多个基准测试中,FBMEL 均优于基准方法。
10.From Uncertainty to Trust: Enhancing Reliability in Vision-Language Models with Uncertainty-Guided Dropout Decoding
标题:从不确定性到信任:用不确定性引导的放弃解码增强视觉语言模型的可靠性
author:Yixiong Fang, Ziran Yang, Zhaorun Chen, Zhuokai Zhao, Jiawei Zhou
publish:Code is released at https://github.com/kigb/DropoutDecoding
date Time:2024-12-09
paper pdf:http://arxiv.org/pdf/2412.06474v1
摘要:
大型视觉语言模型(LVLM)在多模态任务中表现出非凡的能力,但容易误解视觉输入,往往导致幻觉和不可靠的输出。为了应对这些挑战,我们提出了一种新颖的推理时间方法–Dropout Decoding,它可以量化视觉标记的不确定性,并有选择性地屏蔽不确定标记以改进解码。我们的方法通过将每个视觉标记投射到文本空间并将其分解为不确定性和认识成分来测量其不确定性。具体来说,我们关注的是认识上的不确定性,它能更有效地捕捉与感知相关的错误。受 "丢弃正则化 "的启发,我们引入了 “不确定性引导的标记丢弃”,将丢弃原则应用于输入视觉标记而非模型参数,并在推理过程中而非训练过程中应用。通过汇总来自一系列屏蔽解码上下文的预测结果,"丢弃解码 "可以稳健地减少因视觉标记误读而产生的错误。在 CHAIR、THRONE 和 MMBench 等基准测试中的评估结果表明,Dropout 解码大大减少了物体幻觉(OH),并提高了不同视觉环境下 LVLM 输出的可靠性和质量。
11.DenseVLM: A Retrieval and Decoupled Alignment Framework for Open-Vocabulary Dense Prediction
标题:DenseVLM:用于开放词汇密集预测的检索和解耦对齐框架
author:Yunheng Li, Yuxuan Li, Quansheng Zeng, Wenhai Wang, Qibin Hou, Ming-Ming Cheng
date Time:2024-12-09
paper pdf:http://arxiv.org/pdf/2412.06244v1
摘要:
预先训练的视觉语言模型(VLM),如 CLIP,已经显示出令人印象深刻的零点识别能力,但在密集预测任务中仍然表现不佳。最近,“自发散”(Self-distillation)正成为一种很有前途的方法,它能对视觉语言模型进行微调,使其更好地适应局部区域,而无需大量注释。然而,以往最先进的方法往往存在严重的 “前景偏差”,即模型容易将背景区域错误地识别为前景对象。为了缓解这一问题,我们提出了 DenseVLM,这是一个旨在从强大的预训练 VLM 表示中学习无偏见的区域-语言对齐的框架。通过利用预先训练的 VLM 来检索未标记区域的类别,DenseVLM 有效地解除了前景和背景区域特征之间的干扰,确保每个区域都能与相应的类别准确对齐。我们的研究表明,DenseVLM 可以无缝集成到开放词汇的物体检测和图像分割任务中,从而显著提高性能。此外,当在更广泛、更多样的数据集上进行训练时,DenseVLM 还表现出良好的零点扩展性。
12.MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization
标题:MMedPO:用临床感知多模态偏好优化调整医学视觉语言模型
author:Kangyu Zhu, Peng Xia, Yun Li, Hongtu Zhu, Sheng Wang, Huaxiu Yao
date Time:2024-12-09
paper pdf:http://arxiv.org/pdf/2412.06141v1
摘要:
大型视觉语言模型(LVLMs)的发展推动了其在医疗领域的应用。然而,医学大型视觉语言模型(Med-LVLMs)由于模态不对齐而遇到了事实性挑战,即模型优先考虑文本知识而非视觉输入,从而导致医学图像中的信息产生矛盾的幻觉。以往通过偏好优化来增强 Med-LVLM 中的模态对齐的尝试未能充分减轻偏好数据的临床相关性,从而使这些样本很容易区分,降低了对齐效果。为了应对这一挑战,我们提出了 MMedPO,这是一种新颖的多模态医疗偏好优化方法,它考虑了偏好样本的临床相关性,以增强 Med-LVLM 对齐。MMedPO 通过引入两种类型的偏离来整理多模态偏好数据:(1)通过目标 Med-LVLM 或 GPT-4o 注入似是而非的幻觉,以产生医学上不准确的反应;(2)通过局部病变噪声实现病变区域忽略,破坏对关键区域的视觉理解。然后,我们根据多个 Med-LLMs 和视觉工具的评分计算出每个样本的临床相关性,并将这些评分作为权重整合到偏好优化过程中,从而实现有效配准。我们的实验证明,MMedPO 显著提高了 Med-LVLM 的事实准确性,与现有的偏好优化方法相比,在 Med-VQA 和报告生成任务中的平均准确率分别提高了 14.2% 和 51.7%。我们的代码见 https://github.com/aiming-lab/MMedPO。
13.Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models
标题:探索多模态大语言模型的多粒度概念注释
author:Xiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan
publish:A manuscript that should have been Arxived in May 😃
date Time:2024-12-08
paper pdf:http://arxiv.org/pdf/2412.05939v1
摘要:
多模态大语言模型(MLLMs)仅通过粗粒度概念注释(如图像标题)进行预训练,在视觉语言任务中表现出色。我们假设,整合细粒度概念注释(如对象标签和对象区域)将进一步提高性能,因为这两种数据粒度在概念表征的广度和深度方面是互补的。我们为 MLLMs 引入了一个以多模态多粒度概念注释(MMGiC)为特色的新数据集。在构建 MMGiC 的过程中,我们探索了不同数据配方对多模态理解和生成的影响。我们的分析表明,在我们的结构化模板和通用 MLLM 框架下,多粒度概念注释可以相互融合和补充。我们清楚地探索并证明了 MMGiC 在帮助 MLLM 更好地定位和学习概念、在多个粒度上协调视觉和语言方面的潜力。我们通过研究 MMGiC 与图像字幕数据在 12 个多模态理解和生成基准测试中的公平对比和有效协作,进一步验证了我们的假设,例如,在 POPE 和 SEED-Bench 测试中,MMGiC 与图像字幕数据的适当组合比单独使用图像字幕数据分别实现了 3.95% 和 2.34% 的绝对改进。代码、数据和模型将发布在 https://github.com/LooperXX/MMGiC 网站上。
14.LVP-CLIP:Revisiting CLIP for Continual Learning with Label Vector Pool
标题:LVP-CLIP:重新审视利用标签向量池进行持续学习的 CLIP
author:Yue Ma, Huantao Ren, Boyu Wang, Jingang Jin, Senem Velipasalar, Qinru Qiu
publish:submitted to CVPR2025
date Time:2024-12-08
paper pdf:http://arxiv.org/pdf/2412.05840v1
摘要:
持续学习的目的是更新模型,使其能够在不遗忘之前获得的知识的情况下连续学习新任务。最近的持续学习方法通常利用视觉语言模型 CLIP 的高维特征空间和跨模态特征匹配。传统的基于 CLIP 的分类方法通过比较两者的嵌入,为测试图像找出最相似的文本标签。然而,这些方法对文本短语的质量很敏感,对于缺乏有意义文本标签的类别效果较差。在这项工作中,我们重新思考了基于 CLIP 的持续学习,并引入了标签向量池(LVP)的概念。LVP 以训练图像取代文本标签作为相似性参考,从而消除了对理想文本描述的需求。我们介绍了三种不同的 LVP,并评估了它们在类和领域增量学习任务中的性能。利用 CLIP 的高维特征空间,LVP 学习算法具有任务顺序不变性。新知识不会修改旧知识,因此遗忘最小。不同的任务可以独立并行学习,对计算和内存的要求较低。实验结果表明,所提出的基于 LVP 的方法比目前最先进的基线方法高出 40.7%。
15.CompCap: Improving Multimodal Large Language Models with Composite Captions
标题:CompCap:利用复合字幕改进多模态大语言模型
author:Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He
date Time:2024-12-06
paper pdf:http://arxiv.org/pdf/2412.05243v1
摘要:
多模态大语言模型(MLLM)能多好地理解合成图像?合成图像(CIs)是通过合并多种视觉元素(如图表、海报或截图)而创建的合成视觉效果,而不是直接由相机捕捉。虽然 CIs 在现实世界的应用中非常普遍,但最近的 MLLM 发展主要集中在解释自然图像(NIs)上。我们的研究发现,目前的 MLLM 在准确理解 CI 方面面临着巨大挑战,往往难以根据这些图像提取信息或进行复杂的推理。我们发现,现有的 CI 训练数据大多是针对问答任务的格式化数据(如 ChartQA 和 ScienceQA 等数据集),而对于稳健的视觉语言配准至关重要的高质量图像标题数据集却只能用于 NI。为了弥补这一差距,我们引入了复合字幕(CompCap),这是一个灵活的框架,可利用大型语言模型(LLM)和自动化工具合成具有准确、详细字幕的 CI。利用 CompCap,我们制作了 CompCap-118K,这是一个数据集,包含 118K 个图像-标题对,横跨六种 CI 类型。我们通过监督微调 xGen-MM-inst.-4B 和 LLaVA-NeXT-Vicuna-7B/13B 三种大小的 MLLM 验证了 CompCap-118K 的有效性。实证结果表明,CompCap-118K 显著增强了 MLLM 对 CI 的理解,在 11 个基准中的平均收益分别为 1.7%、2.0% 和 2.9%。
16.LinVT: Empower Your Image-level Large Language Model to Understand Videos
标题:LinVT:增强图像级大语言模型理解视频的能力
author:Lishuai Gao, Yujie Zhong, Yingsen Zeng, Haoxian Tan, Dengjie Li, Zheng Zhao
date Time:2024-12-06
paper pdf:http://arxiv.org/pdf/2412.05185v2
摘要:
大型语言模型(LLM)已被广泛应用于各种任务中,这促使我们为视频开发基于 LLM 的助手。我们提出了一个模块,将任意训练有素的图像 LLM 转换为视频 LLM(在视频数据上训练后),而不是从头开始训练。为了使图像 LLM 更好地适应视频处理,我们引入了两个设计原则:线性变换以保持原始视觉语言的一致性,以及从冗余视频内容中浓缩代表性信息。在这些原则的指导下,我们提出了一种即插即用的线性视频标记器(LinVT),使现有的图像-LLM 能够理解视频。我们用六种最新的视觉 LLM 对 LinVT 进行了基准测试:Aquila、Blip-3、InternVL2、Mipha、Molmo 和 Qwen2-VL,展示了 LinVT 的高兼容性。基于 LinVT 的 LLM 在各种视频基准测试中都取得了最先进的性能,说明了 LinVT 在多模态视频理解中的有效性。
17.Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model
标题:Espresso:为您的视觉语言模型从视频中提取丰富内容的高压缩技术
author:Keunwoo Peter Yu, Achal Dave, Rares Ambrus, Jean Mercat
publish:11 pages
date Time:2024-12-06
paper pdf:http://arxiv.org/pdf/2412.04729v2
摘要:
目前大多数用于视频的视觉语言模型(VLM)都很难理解几秒钟以上的视频。这主要是由于这些模型无法扩展以利用大量帧。为了解决这一局限性,我们提出了 Espresso,一种分别提取和压缩空间和时间信息的新方法。通过广泛的评估,我们发现 Espresso 中的空间压缩和时间压缩对长视频理解能力都有积极影响;当两者结合使用时,其积极影响会增加。此外,我们还表明,Espresso 的性能随着训练数据的增加而扩展,在长视频理解方面,Espresso 远比现有的 VLM 投影仪更有效。此外,我们还为EgoSchema设计了一种难度更大的评估设置,称为 “need-in-a-haystack”,它将输入视频的长度成倍增加。Espresso 在这项任务中取得了 SOTA 性能,超过了在更多训练数据上训练过的 SOTA VLM。