VLM论文时报
文章平均质量分 91
VLM论文时报
小小帅AIGC
这个作者很懒,什么都没留下…
展开
-
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.25-2024.07.01
虽然大型语言模型(LLM)中文本嵌入的压缩表示取得了重大进展,但大型多模态模型(LMM)中视觉标记的压缩在很大程度上仍是一个被忽视的领域。在这项工作中,我们介绍了有关视觉标记冗余分析和这些模型中高效训练的研究。我们的初步实验表明,在测试阶段通过简单的平均池化消除多达 70% 的视觉标记,只会导致在 GQA 基准上视觉问题解答准确率最低降低 3%,这表明视觉语境中存在大量冗余。原创 2024-07-05 09:46:08 · 869 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.20-2024.06.25
视频瞬间检索(VMR)旨在根据自然语言查询,在未经剪辑的长视频中定位特定的时间片段。现有方法往往存在训练注释不足的问题,即句子通常只与前景中一小部分突出的视频内容相匹配,而措辞的多样性有限。这种固有模态的不平衡使得相当一部分视觉信息无法与文本对齐。这就将跨模态对齐知识限制在了有限的文本语料库范围内,从而导致视觉-文本建模效果不理想,通用性差。原创 2024-07-02 13:44:41 · 718 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.10-2024.06.15
在电子商务平台上改善用户体验和提供个性化搜索结果在很大程度上依赖于对购买意向的理解。然而,现有的获取大规模购买意向的方法依赖于提炼大型语言模型,并通过人工注释进行验证。这种方法往往会生成以产品为中心的购买意向,忽略了产品图片中宝贵的视觉信息,而且在可扩展性方面成本较高。为了解决这些问题,我们引入了 MIND,这是一个多模态框架,允许大型视觉语言模型(LVLM)从多模态产品元数据中推断购买意图,并优先考虑以人为中心的购买意图。原创 2024-06-26 12:40:21 · 759 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.15-2024.06.20
大型视觉语言模型(LVLM)近来极大地推动了图像标题和许多图像理解任务(如视觉问题解答)的技术发展。然而,LVLMs 经常会产生幻觉,生成的标题中提到的概念在图像中找不到。这些幻觉削弱了 LVLM 的可信度,可以说是 LVLM 普及应用的主要障碍之一。最近的研究表明,增加接地目标–那些明确地将图像区域或对象与文本跨度对齐的目标–可以减少 LVLM 幻觉的数量。原创 2024-06-25 11:21:15 · 863 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.05-2024.06.10
大型多模态语言模型在理解和编辑图像方面表现出了非凡的能力。然而,主要由于训练数据的限制,这些经过视觉调整的模型大多难以理解图像中嵌入的文本内容。在这项工作中,我们引入了 TRINS:文本丰富的图像 INStruction 数据集,目的是提高多模态大语言模型的阅读能力。TRINS 以 LAION 为基础,采用混合数据注释策略,包括机器辅助和人工辅助注释过程。它包含 39,153 张富含文本的图像、标题和 102,437 个问题。原创 2024-06-20 12:33:34 · 852 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.01-2024.06.05
大型视觉语言模型(VLM)可以学习丰富的图像-文本联合表征,从而在相关的下游任务中表现出色。然而,它们未能展示出对物体的定量理解,也缺乏良好的计数感知表征。本文对 “教CLIP数到十”(Paiss等人,2023年)进行了可重复性研究,该研究提出了一种微调CLIP模型(Radford等人,2021年)的方法,通过引入计数对比损失项来提高图像中零点计数的准确性,同时保持零点分类的性能。我们利用较少的计算资源,在其训练数据的较小子集上提高了模型的性能。我们用自己的代码重现了他们的研究,从而验证了这些说法。原创 2024-06-20 12:32:16 · 790 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.25-2024.05.31
标题:DeCo:多模态大语言模型中的标记压缩与语义抽象解耦摘要视觉投射器是视觉和语言模式之间的桥梁,可促进跨模式对齐,是 MLLM 的重要组成部分。然而,衡量投影器在视觉语言配准中的有效性的研究仍然不足,目前只能通过 MLLM 在下游任务中的表现来推断。受这一问题的启发,本研究通过解释 MLLM 中的视觉语言语义流来研究投射器模块。具体来说,我们回溯了从生成的语言标记到原始视觉编码器补丁的语义相关性流,以及投影仪产生的中间输出。原创 2024-06-05 13:28:09 · 1434 阅读 · 1 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.10-2024.05.20
编辑视频时,一段动听的背景音乐必不可少。然而,视频背景音乐生成任务面临着一些挑战,例如缺乏合适的训练数据集,难以灵活控制音乐生成过程并按顺序对齐视频和音乐。在这项工作中,我们首先提出了一个高质量的音乐视频数据集 BGM909,该数据集具有详细的注释和镜头检测功能,可提供视频和音乐的多模态信息。然后,我们提出了评估音乐质量的评价指标,包括音乐多样性和音乐与视频之间的匹配度以及检索精度指标。原创 2024-05-28 16:01:37 · 1323 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.20-2024.05.25
大型语言模型(LLM)的成功促进了多模态大型语言模型(MLLM)这一新的研究趋势,改变了计算机视觉各个领域的研究范式。虽然 MLLM 在许多高级视觉和视觉语言任务(如 VQA 和文本到图像)中取得了可喜的成果,但还没有研究表明低级视觉任务如何从 MLLM 中受益。我们发现,由于视觉模块的设计原因,目前大多数 MLLM 对低层次特征视而不见,因此本质上无法解决低层次视觉任务。在这项工作中,我们设计了。原创 2024-05-28 15:43:29 · 1657 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.01-2024.05.10
医学图像识别任务因存在多种不同的病理指征而明显复杂化,这给未见标签的多标签分类带来了独特的挑战。这种复杂性凸显了对采用多标签零点学习的计算机辅助诊断方法的需求。预训练视觉语言模型(VLMs)的最新进展展示了医疗图像零镜头分类的显著能力。然而,这些方法在利用来自更广泛图像数据集的大量预训练知识方面存在局限性,而且通常依赖于放射科专家的手动提示构建。通过自动调整提示过程,提示学习技术已成为使 VLM 适应下游任务的有效方法。原创 2024-05-28 15:40:55 · 1140 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.25-2024.05.01
目前,高效构建大型视觉语言(VL)模型的解决方案分为两步:将预训练视觉编码器的输出投射到预训练语言模型的输入空间,作为视觉提示;然后通过端到端参数高效微调(PEFT)将模型转移到下游 VL 任务中。然而,这种模式仍然效率低下,因为它大大增加了语言模型的输入长度。在本文中,与将视觉提示整合到输入中不同,我们将视觉提示视为额外的知识,有助于语言模型处理与视觉信息相关的任务。原创 2024-05-28 15:39:44 · 1153 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.15-2024.04.25
AutoGluon-Multimodal (AutoMM) 是专为多模态学习设计的开源 AutoML 库。AutoMM 易于使用,只需三行代码即可对基础模型进行微调。该库支持包括图像、文本和表格数据在内的各种模式,既可独立使用,也可组合使用,提供了一整套功能,涵盖分类、回归、对象检测、语义匹配和图像分割。在各种数据集和任务中进行的实验表明,与现有的 AutoML 工具相比,AutoMM 在基本分类和回归任务中表现出色,同时在高级任务中也取得了具有竞争力的结果,与为此目的而设计的专门工具箱不相上下。原创 2024-05-28 15:38:04 · 1161 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.10-2024.04.15
尽管扩散模型已成功应用于各种图像复原(IR)任务,但其性能对训练数据集的选择非常敏感。通常情况下,在特定数据集中训练的扩散模型无法恢复有分布外退化的图像。为了解决这个问题,这项工作利用了一个功能强大的视觉语言模型和一个合成降解管道来学习野外图像修复(野外 IR)。更具体地说,所有低质量图像都使用合成降级管道进行模拟,该管道包含多种常见降级,如模糊、大小调整、噪声和 JPEG 压缩。然后,我们为降级感知 CLIP 模型引入鲁棒训练,以提取丰富的图像内容特征,协助高质量图像修复。原创 2024-04-16 14:46:40 · 1509 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.05-2024.04.10
视觉语言模型(VLM)通常由一个视觉编码器(如 CLIP)和一个语言模型(LM)组成,前者解释编码特征,后者解决下游任务。尽管取得了显著进展,但由于视觉编码器的能力有限,VLM 仍然存在一些缺陷,例如对某些图像特征 “视而不见”、视觉幻觉等。为了解决这些问题,我们研究了如何拓宽 VLM 的视觉编码能力。我们首先对解决 VLM 任务的几种具有不同归纳偏差的视觉编码器进行了全面的基准测试。我们发现,没有一种编码配置能在不同任务中始终保持最佳性能,而具有不同偏置的编码器的性能却惊人地相似。原创 2024-04-12 13:55:04 · 809 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.31-2024.04.05
从单个视图恢复三维场景几何是计算机视觉领域的一个基本问题,但也是一个难题。传统的深度估计方法只能推断出仅限于图像平面的 2.5D 场景表示,而最新的基于辐射场的方法则能重建完整的 3D 表示。然而,这些方法在处理遮挡区域时仍有困难,因为在没有视觉观察的情况下推断几何图形需要(i)周围环境的语义知识,以及(ii)空间上下文推理。我们提出的 KYN 是一种用于单视角场景重建的新方法,它通过推理语义和空间上下文来预测每个点的密度。我们引入了视觉语言调制模块,利用细粒度语义信息丰富点特征。原创 2024-04-07 14:16:45 · 803 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.25-2024.03.31
本文介绍了视觉语言模型(VLM)面临的一个新颖而重大的挑战,即无法解决的问题检测(UPD)。在视觉问题解答(VQA)任务中,UPD 考察的是视觉语言模型在遇到无法解决的问题时拒绝回答的能力。UPD 包括三种不同的设置:缺失答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD)。为了深入研究 UPD 问题,广泛的实验表明,包括 GPT-4V 和 LLaVA-Next-34B 在内的大多数 VLM 在不同程度上都难以胜任我们的基准测试,这凸显了改进的巨大空间。原创 2024-04-01 14:29:20 · 1246 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.20-2024.03.25
多模态大语言模型(MLLMs)已经证明了其感知静态图像中物体的能力,但其在视频相关任务(如物体追踪)中的应用仍未得到充分研究。造成这种探索不足的主要原因有两个。首先,需要在大规模视频数据集上进行广泛的预训练,使 MLLM 具备感知多帧物体和理解帧间关系的能力。其次,在大型语言模型(LLM)的上下文窗口内处理大量帧会带来巨大的计算负担。原创 2024-03-26 15:09:07 · 1287 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.15-2024.03.20
在视觉语言理解领域,模型对视觉内容进行解释和推理的能力已成为众多应用的基石。然而,对于大型视觉语言模型(LVLMs)中的视觉编码器来说,如何针对问题提取有用的特征以帮助语言模型做出响应是一项挑战。此外,现有的大型视觉语言模型通常使用低分辨率图像,这限制了视觉识别能力。我们的工作引入了 Chain-of-Spot (CoS) 方法,我们将其描述为交互式推理,这是一种新颖的方法,它通过关注图像中与所提问题或指令相对应的关键兴趣区域 (ROI) 来增强特征提取。原创 2024-03-20 13:48:04 · 1287 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.10-2024.03.15
最近的视觉-语言-动作(VLA)模型依赖于二维输入,缺乏与更广阔的三维物理世界的整合。此外,它们通过学习从感知到行动的直接映射来进行行动预测,忽视了世界的巨大动态以及行动与动态之间的关系。与此相反,人类拥有世界模型,可以描绘对未来场景的想象,并据此规划行动。为此,我们提出了3D-VLA,引入了一系列新的体现基础模型,通过生成世界模型将三维感知、推理和行动无缝连接起来。具体来说,3D-VLA 建立在基于三维的大型语言模型(LLM)之上,并引入了一组交互标记来与具身环境互动。原创 2024-03-15 15:17:25 · 1481 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.05-2024.03.10
提示学习对于微调基础模型以提高其在各种下游任务中的泛化能力非常有效。然而,沿着单一模态路径独立优化的提示可能会牺牲预训练模型的视觉语言一致性,以换取在特定任务和类别中性能的提高,从而导致泛化效果较差。在本文中,我们首先证明了只沿着 CLIP 的单一分支(如语言或视觉)进行提示调整是出现不对齐的原因。如果不对不同模态中的可学习参数进行适当的正则化,及时学习就会违反双塔架构固有的原始预训练约束。为了解决这种错位问题,我们首先提出了特征偏移,它被定义为引入所学提示后嵌入式的变化,作为一种解释工具。原创 2024-03-13 13:37:44 · 1375 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.01-2024.03.05
学习与推理的整合是人工智能研究议程上的重要议题。然而,利用现有的背景知识对部分观察到的场景进行推理,以回答有关场景的问题,却鲜有人关注。然而,我们人类经常使用这些知识来推断视觉问题的合理答案(通过排除所有不一致的答案)。这些知识通常以对象约束的形式出现,而且往往具有高度的领域或环境特定性。我们提出了一种名为 CLEVR-POC 的新基准,用于在约束条件下的部分可观测环境中进行推理密集型视觉问题解答(VQA)。原创 2024-03-06 14:00:22 · 1502 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.25-2024.03.01
数据和注释的质量是下游模型质量的上限。虽然存在大量的文本语料库和图像-文本对,但高质量的视频-文本数据却很难收集。首先,人工标注更耗时,因为它需要标注者观看整个视频。其次,视频具有时间维度,由多个场景叠加而成,并显示多个动作。因此,为了建立一个具有高质量字幕的视频数据集,我们提出了一种利用多模态输入(如文字视频描述、字幕和单个视频帧)的自动方法。具体来说,我们从公开的 HD-VILA-100M 数据集中收集了 380 万个高分辨率视频。原创 2024-03-01 11:35:53 · 1252 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.01-2024.01.10
多模态三维物体探测器致力于为自动驾驶(AD)探索安全可靠的感知系统。然而,虽然在干净的基准数据集上实现了最先进(SOTA)的性能,但它们往往忽略了真实世界环境的复杂性和恶劣条件。同时,随着视觉基础模型(VFM)的出现,为提高自动驾驶中多模态三维物体检测的鲁棒性和通用性带来了机遇和挑战。因此,我们提出了 RoboFusion,一个利用视觉基础模型(如 SAM)来解决分布外噪声(OOD)问题的稳健框架。首先,我们将原始的 SAM 改用于自动驾驶场景,命名为 SAM-AD。原创 2024-02-28 11:59:19 · 1158 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.10-2024.01.15
对比语言-图像预训练(CLIP)模型在建立文本和图像之间的跨模态连接方面表现出卓越的功效,通过微调在广泛的下游应用中取得了令人印象深刻的性能。然而,对于泛化任务,目前的 CLIP 微调方法(如 CoOp 和 CoCoOp)在一些细粒度数据集上表现出相对较低的性能。我们认识到,其根本原因在于以前的这些方法只将全局特征投射到提示中,而忽略了各种视觉概念,如颜色、形状和大小,而这些概念可以自然地跨领域转移,并在泛化任务中发挥关键作用。原创 2024-02-28 11:57:54 · 1362 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.15-2024.01.20
事实证明,语言监督预训练是从图像中提取有语义意义特征的重要方法,是计算机视觉和医学成像领域多模态系统的基础元素。然而,所提取的特征受到文本信息的限制。这在医学影像领域尤为突出,因为放射科医生的书面结论主要集中在具体的观察结果上;由于担心个人健康信息泄露,成对的图像-文本数据非常稀缺,这就加剧了这一挑战。在这项工作中,我们从根本上挑战了在学习通用生物医学成像编码器时普遍依赖语言监督的做法。原创 2024-02-28 11:56:47 · 1295 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.20-2024.01.25
能够在网络上规划、推理和执行操作的自主代理为计算机任务自动化提供了一条前景广阔的途径。然而,现有的大多数基准主要关注基于文本的代理,忽略了许多需要视觉信息才能有效解决的自然任务。鉴于大多数计算机界面都迎合了人类的感知,视觉信息通常会以纯文本模型难以有效利用的方式增强文本数据。为了弥补这一差距,我们引入了VisualWebArena,它是一个旨在评估多模态网络代理在现实文本任务中性能的基准。VisualWebArena由一系列多样而复杂的基于网络的任务组成,用于评估自主多模态代理的各种能力。原创 2024-02-28 11:55:28 · 979 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.25-2024.01.31
多标签图像识别是计算机视觉领域的一项基本任务。最近,视觉语言模型在这一领域取得了显著进步。然而,以前的方法往往不能有效利用语言模型中的丰富知识,而是以单向的方式将标签语义纳入视觉特征。在本文中,我们提出了一个提示驱动的视觉语言表征学习(PVLR)框架,以更好地利用语言模态的能力。在 PVLR 中,我们首先引入了双重提示策略,包括知识感知提示(KAP)和语境感知提示(CAP)。KAP 利用固定提示捕捉所有标签的内在语义知识和关系,而 CAP 则利用可学习提示捕捉上下文感知标签语义和关系。原创 2024-02-28 11:53:58 · 1160 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.01-2024.02.05
在这项工作中,我们提出了一种从长字幕中密集定位视觉实体的新方法。我们利用大型多模态模型(LMM)提取语义名词,利用类无关分割模型生成实体级分割,并利用所提出的多模态特征融合模块将每个语义名词与其相应的分割掩码关联起来。此外,我们还引入了一种将实体分割掩码编码到色谱图中的策略,从而能够保留来自高分辨率掩码特征的细粒度预测。通过这种方法,我们可以使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征,这比使用额外编码器处理高分辨率图像的现有方法更具计算效率。原创 2024-02-27 13:12:13 · 1457 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.05-2024.02.10
通过将自然语言理解、大型语言模型的生成能力和知识广度与图像感知相结合,最近的大型视觉语言模型(LVLM)在现实世界中展现出了前所未有的推理能力。然而,生成的文本往往会受到视觉输入基础不准确的影响,从而导致错误,如幻觉不存在的场景元素、遗漏场景的重要部分以及推断出错误的属性和物体之间的关系。为了解决这些问题,我们引入了一个新颖的框架,即 ViGoR(通过细粒度奖励建模实现视觉接地),它利用细粒度奖励建模来显著增强 LVLM 的视觉接地能力,使其优于预训练基线。原创 2024-02-27 13:10:26 · 1364 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.10-2024.02.15
多模态学习已成为视觉识别领域越来越有前途的途径,推动了从媒体和教育到医疗保健和交通等不同领域的创新。尽管多模态学习取得了成功,但其在视觉识别方面的稳健性却常常受到无法获得部分模态(尤其是视觉模态)的挑战。在多模态学习中,缓解模态缺失的传统方法主要依赖于算法和模态融合方案。相比之下,本文探索使用文本到图像模型来辅助多模态学习。具体来说,我们提出了一个简单而有效的多模态学习框架 GTI-MM,通过使用生成转换器对缺失数据进行推算,提高数据效率和模型的鲁棒性,以应对视觉模态的缺失。原创 2024-02-27 13:08:52 · 1278 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.15-2024.02.20
指令调整中的数据选择是获取高质量数据和训练指令跟踪大型语言模型(LLM)的关键过程,但对于视觉语言模型(VLM)来说,这仍然是一个尚未开发的新研究领域。现有的 LLM 数据选择方法要么依赖于单一的不可靠分数,要么使用下游任务进行选择,这不仅耗时,而且可能导致所选评估数据集的潜在过拟合。为了应对这一挑战,我们引入了一种新颖的数据集选择方法–自滤波器,它利用 VLM 本身作为滤波器。这种方法的灵感来自于一个观察结果,即 VLM 可以从最具挑战性的指令训练中获益。Self-Filter 分两个阶段运行。原创 2024-02-27 13:06:27 · 1437 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.20-2024.02.25
配备触摸屏和手写笔的平板电脑越来越多,其中一个关键功能就是将手写转换为文本,从而实现搜索、索引和人工智能辅助功能。与此同时,视觉语言模型(VLM)凭借其在各种任务中的一流性能,以及训练、微调和推理统一方法的简便性,现已成为图像理解的首选解决方案。虽然 VLM 在基于图像的任务中获得了很高的性能,但在手写识别方面,如果采用简单的方法,即通过将手写内容呈现为图像并执行光学字符识别(OCR),VLM 的性能就会大打折扣。在本文中,我们研究了使用 VLMs 进行在线手写识别的方法,它超越了传统的 OCR 方法。原创 2024-02-27 13:04:15 · 1256 阅读 · 0 评论