文章目录~
- 1.VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection
- 2.Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation
- 3.Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
- 4.Attention Prompting on Image for Large Vision-Language Models
- 5.Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification
- 6.A Unified Hallucination Mitigation Framework for Large Vision-Language Models
- 7.Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation
- 8.ComiCap: A VLMs pipeline for dense captioning of Comic Panels
- 9.VLMine: Long-Tail Data Mining with Vision Language Models
- 10.PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions
- 11.Brotherhood at WMT 2024: Leveraging LLM-Generated Contextual Conversations for Cross-Lingual Image Captioning
- 12.Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models
- 13.A-VL: Adaptive Attention for Large Vision-Language Models
- 14.Patch Ranking: Efficient CLIP by Learning to Rank Local Patches
- 15.Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
- 16.Effectively Enhancing Vision Language Large Models by Prompt Augmentation and Caption Utilization
- 17.PromptTA: Prompt-driven Text Adapter for Source-free Domain Generalization
- 18.FineMolTex: Towards Fine-grained Molecular Graph-Text Pre-training
- 19.SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information
1.VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection
标题:VL4AD:视觉语言模型改进像素级异常检测
author:Liangyu Zhong, Joachim Sicking, Fabian Hüger, Hanno Gottschalk
publish:27 pages, 9 figures, to be published in ECCV 2024 2nd Workshop on
Vision-Centric Autonomous Driving (VCAD)
date Time:2024-09-25
paper pdf:http://arxiv.org/pdf/2409.17330v1
摘要:
语义分割网络在独立和同分布数据的假设条件下取得了巨大成功。然而,由于这些网络通常训练的视觉概念集有限,因此在检测未知语义类别的异常情况时往往力不从心。为了解决这个问题,异常分割通常需要对离群样本进行微调,这就需要在数据收集、标记和模型再训练方面付出额外的努力。为了避免这种繁琐的工作,我们采取了一种不同的方法,建议将视觉语言(VL)编码器纳入现有的异常检测器,利用语义广泛的 VL 预训练来提高异常点识别能力。此外,我们还提出了一种新的评分功能,可通过文本提示实现无需数据和训练的异常点监督。由此产生的 VL4AD 模型包括最大逻辑提示集合和类合并策略,在广泛使用的基准数据集上取得了具有竞争力的性能,从而证明了视觉语言模型在像素异常检测方面的潜力。
2.Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation
标题:导航的细微差别:视觉语言导航的精细评估
author:Zehao Wang, Minye Wu, Yixin Cao, Yubo Ma, Meiqi Chen, Tinne Tuytelaars
publish:EMNLP 2024 Findings; project page:
https://zehao-wang.github.io/navnuances
date Time:2024-09-25
paper pdf:http://arxiv.org/pdf/2409.17313v1
摘要:
本研究为视觉语言导航(VLN)任务提出了一个新颖的评估框架。其目的是在更精细的层次上对各种指令类别的现有模型进行诊断。该框架围绕任务的无上下文语法(CFG)构建。CFG 是问题分解的基础,也是指令类别设计的核心前提。我们提出了一种借助大型语言模型(LLM)构建 CFG 的半自动方法。然后,我们归纳并生成了跨越五个主要指令类别(即方向变化、地标识别、区域识别、垂直移动和数字理解)的数据。我们对不同模型的分析揭示了显著的性能差异和反复出现的问题。数字理解的停滞、对方向概念的严重选择性偏差以及其他有趣的发现都有助于未来语言引导导航系统的开发。
3.Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
标题:Molmo 和 PixMo:最新多模态模型的开放权重和开放数据
author:Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Jen Dumas, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi
date Time:2024-09-25
paper pdf:http://arxiv.org/pdf/2409.17146v1
摘要:
当今最先进的多模态模型仍然是专有的。最强的开放权重模型在很大程度上依赖于来自专有 VLM 的合成数据来实现良好的性能,从而有效地将这些封闭模型提炼为开放模型。因此,对于如何从零开始建立性能卓越的 VLM,社区仍然缺乏基础知识。我们提出的 Molmo 是一个新的 VLM 系列,在同类开放性模型中处于领先地位。我们的关键创新在于一个新颖、高度详细的图像标题数据集,该数据集完全由使用语音描述的人类注释者收集而来。为了实现广泛的用户交互,我们还引入了一个用于微调的多样化数据集混合物,其中包括野生问答和创新的二维指向数据。我们的方法能否取得成功,取决于对模型架构细节的精心选择、经过良好调整的训练管道,最关键的是我们新收集的数据集的质量,所有这些数据集都将发布。Molmo 系列中同类最佳的 72B 模型不仅在开放权重和数据模型方面优于其他同类产品,而且在学术基准和人类评估方面也优于 GPT-4o、Claude 3.5 和 Gemini 1.5 等专有系统。 我们将在不久的将来公布所有模型权重、字幕和微调数据以及源代码。部分模型权重、推理代码和演示可在 https://molmo.allenai.org 上获取。
4.Attention Prompting on Image for Large Vision-Language Models
标题:大型视觉语言模型的图像注意力提示
author:Runpeng Yu, Weihao Yu, Xinchao Wang
publish:Website, see https://yu-rp.github.io/api-prompting
date Time:2024-09-25
paper pdf:http://arxiv.org/pdf/2409.17143v1
摘要:
与大型语言模型(LLM)相比,大型视觉语言模型(LVLM)也可以接受图像作为输入,从而展现出更有趣的新兴能力,并在各种视觉语言任务中表现出令人印象深刻的性能。受 LLM 中文本提示的启发,人们探索了视觉提示技术,以增强 LVLM 感知视觉信息的能力。然而,以往的视觉提示技术只处理视觉输入,而不考虑文本查询,从而限制了模型按照文本指令完成任务的能力。为了填补这一空白,我们在这项工作中提出了一种名为 “图像注意力提示”(Attention Prompting on Image)的新提示技术,该技术只需在原始输入图像上简单叠加一个文本查询引导的注意力热图,就能有效增强 LVLM 在各种任务中的能力。具体来说,我们通过 CLIP 等辅助模型,根据文本查询为输入图像生成注意力热图。然后,热图只需乘以原始图像的像素值,即可获得 LVLM 的实际输入图像。在各种视觉语言基准上进行的大量实验验证了我们技术的有效性。例如,在 MM-Vet 和 LLaVA-Wild 基准测试中,图像注意力提示技术分别将 LLaVA-1.5 提高了 3.8% 和 2.9%。
5.Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification
标题:通过简单有效的参数修改微调视觉语言模型
author:Ming Li, Jike Zhong, Chenxin Li, Liuzhuozheng Li, Nie Lin, Masashi Sugiyama
publish:EMNLP 2024 Main Conference
date Time:2024-09-25
paper pdf:http://arxiv.org/pdf/2409.16718v1
摘要:
视觉语言模型(VLM)微调的最新进展见证了及时微调和适配器微调的成功,而对固有参数的经典模型微调似乎被忽视了。微调 CLIP 模型甚至会降低性能,因此微调 VLM 的参数会破坏预训练的知识。在本文中,我们重新审视了这一观点,并提出了一个新的视角:微调特定参数而不是全部参数,将发掘经典模型微调在 VLM 上的威力。通过细致的研究,我们提出了 ClipFit,一种简单而有效的微调 CLIP 的方法,无需引入任何额外参数。我们证明,只需对特定偏置项和归一化层进行微调,ClipFit 就能将零射 CLIP 的性能提高 7.27% 的平均谐波平均精度。最后,为了了解 CLIPFit 中的微调如何影响预训练模型,我们对内部参数和表征的变化进行了广泛的实验分析。我们发现,低层文本偏置层和第一层归一化层的变化比其他层要大得多。代码可在\url{https://github.com/minglllli/CLIPFit}上获取。
6.A Unified Hallucination Mitigation Framework for Large Vision-Language Models
标题:大型视觉语言模型的统一幻觉缓解框架
author:Yue Chang, Liqiang Jing, Xiaopeng Zhang, Yue Zhang
publish:Accepted by TMLR
date Time:2024-09-24
paper pdf:http://arxiv.org/pdf/2409.16494v1
摘要:
幻觉是大型视觉语言模型(LVLM)的一个常见问题,生成时间长,难以消除。带有幻觉的生成与图像内容部分不一致。为了缓解幻觉问题,目前的研究要么侧重于模型推理过程,要么侧重于模型生成结果,但它们设计的解决方案有时不能恰当地处理各种类型的查询以及生成时对这些查询产生的幻觉。为了准确处理各种幻觉,我们提出了一个缓解幻觉的统一框架–Dentist。其核心步骤是首先对查询进行分类,然后根据分类结果执行不同的幻觉缓解过程,就像牙医首先观察牙齿然后制定计划一样。在一个简单的部署中,牙医就能将查询分类为感知或推理,并轻松减轻答案中可能出现的幻觉,这在我们的实验中已得到证实。在 MMbench 上,与基线 InstructBLIP/LLaVA/VisualGLM 相比,我们在粗感知视觉问题解答(VQA)任务 "图像质量 "上的准确率提高了 13.44%/10.2%/15.8%。
7.Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation
标题:针对开放词汇泛视分割的语义再聚焦调整
author:Yong Xien Chng, Xuchong Qiu, Yizeng Han, Kai Ding, Wan Ding, Gao Huang
publish:9 pages, 6 figures
date Time:2024-09-24
paper pdf:http://arxiv.org/pdf/2409.16278v1
摘要:
开放词汇全景分割是一项新兴任务,旨在根据一组文本将图像精确分割成具有语义意义的掩码。尽管目前已有很多方法,但要开发出一种既能在新领域中有效推广,又只需最少训练资源的高性能方法,仍然充满挑战。我们对当前方法的深入分析揭示了一个重要的观点:掩码分类是开放式眼科全景分割的主要性能瓶颈。在此基础上,我们提出了语义再聚焦调谐(SMART),这是一个新颖的框架,它通过两个关键的创新改进了掩膜分类,从而大大提高了开放式眼科全视角分割的性能。首先,SMART 采用多模态语义引导掩膜关注机制,将任务感知注入区域信息提取过程。这使模型能够捕捉任务特定的上下文相关信息,从而更有效地进行掩码分类。其次,它结合了查询投影调整功能,可对用于掩码分类的视觉语言模型(VLM)中的查询投影层进行战略性微调。通过这种调整,该模型可以用最少的训练资源将掩码标记的图像焦点调整为新的分布,同时保留 VLM 预先训练的知识。广泛的消融研究证实了我们方法的优越性。值得注意的是,SMART 创造了最先进的新成果,在具有代表性的基准测试中提高了 +1.3 PQ 和 +5.4 mIoU,同时与之前的最佳方法相比,训练成本降低了近 10 倍。我们的代码和数据即将发布。
8.ComiCap: A VLMs pipeline for dense captioning of Comic Panels
标题:ComiCap:为漫画板块添加密集字幕的 VLMs 管道
author:Emanuele Vivoli, Niccolò Biondi, Marco Bertini, Dimosthenis Karatzas
publish:Accepted at ECCV 2024 Workshop (AI for Visual Art), repo:
https://github.com/emanuelevivoli/ComiCap
date Time:2024-09-24
paper pdf:http://arxiv.org/pdf/2409.16159v1
摘要:
随着单页和多页分析与合成模型的发展,漫画领域的研究进展迅速。最近推出了一些基准和数据集,以支持和评估模型在检测(面板、角色、文本)、链接(角色再识别和说话者识别)以及漫画元素分析(如对话转录)等任务中的能力。然而,要全面了解故事情节,模型不仅要提取元素,还要了解它们之间的关系,并生成信息量很大的标题。在这项工作中,我们提出了一种利用视觉语言模型(VLM)来获取密集、有根有据的字幕的方法。为了构建我们的管道,我们引入了一个属性保留度量标准,用于评估标题中是否识别出了所有重要属性。此外,我们还创建了一个高密度注释测试集,以公平地评估开源 VLM,并根据我们的指标选择最佳字幕模型。我们的管道生成的带有边界框的密集字幕在数量和质量上都优于经过专门训练的模型生成的字幕,而且不需要任何额外的训练。利用这一管道,我们对 13,000 本图书的 200 多万个面板进行了注释,这些注释将在项目页面 https://github.com/emanuelevivoli/ComiCap 上提供。
9.VLMine: Long-Tail Data Mining with Vision Language Models
标题:VLMine:利用视觉语言模型进行长尾数据挖掘
author:Mao Ye, Gregory P. Meyer, Zaiwei Zhang, Dennis Park, Siva Karthik Mustikovela, Yuning Chai, Eric M Wolff
date Time:2024-09-23
paper pdf:http://arxiv.org/pdf/2409.15486v1
摘要:
对于自动驾驶等许多机器学习的实际应用来说,确保长尾示例的稳健性能是一个重要问题。这项工作的重点是识别未标注数据语料库中的罕见示例。我们提出了一种简单、可扩展的数据挖掘方法,该方法利用了大型视觉语言模型(VLM)中包含的知识。我们的方法利用 VLM 将图像内容概括为一组关键词,并根据关键词频率识别罕见示例。我们发现,与基于模型不确定性的传统方法相比,VLM 在识别长尾实例方面提供了明显的信号。因此,我们提出了一种简单而通用的方法,用于整合来自多种挖掘算法的信号。我们在两个不同的任务中对所提出的方法进行了评估:二维图像分类(类间变化是数据多样性的主要来源)和三维物体检测(类内变化是主要关注点)。此外,通过检测任务,我们证明了从二维图像中提取的知识可以转移到三维领域。我们的实验表明,在几个具有代表性的基准上,我们的技术比基准技术有了很大的提高(10% 到 50%),这些基准包括:ImageNet-LT、Places-LT 和 Waymo Open Dataset。
10.PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions
标题:PixWizard:多功能图像到图像可视化助手,提供开放式语言说明
author:Weifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li
publish:Code is released at https://github.com/AFeng-x/PixWizard
date Time:2024-09-23
paper pdf:http://arxiv.org/pdf/2409.15278v1
摘要:
本文介绍了一种多功能图像到图像视觉助手 PixWizard,该助手设计用于基于自由语言指令的图像生成、操作和翻译。为此,我们在一个统一的图像-文本-图像生成框架中处理了各种视觉任务,并策划了一个全方位像素到像素指令调整数据集。通过构建详细的自然语言指令模板,我们全面涵盖了大量不同的视觉任务,如文本到图像生成、图像复原、图像接地、密集图像预测、图像编辑、可控生成、内画/外画等。此外,我们采用扩散变换器(DiT)作为基础模型,并通过灵活的任意分辨率机制扩展了其功能,使该模型能够根据输入的长宽比动态处理图像,与人类的感知过程密切吻合。该模型还结合了结构感知和语义感知指导,以促进输入图像信息的有效融合。我们的实验证明,PixWizard 不仅对不同分辨率的图像显示出令人印象深刻的生成和理解能力,而且在未见过的任务和人类指令中也表现出良好的泛化能力。代码和相关资源可在 https://github.com/AFeng-x/PixWizard 上获取。
11.Brotherhood at WMT 2024: Leveraging LLM-Generated Contextual Conversations for Cross-Lingual Image Captioning
标题:兄弟情谊在 WMT 2024:利用 LLM 生成的上下文对话进行跨语言图像字幕制作
author:Siddharth Betala, Ishan Chokshi
publish:Accepted at the Ninth Conference on Machine Translation (WMT24),
co-located with EMNLP 2024
date Time:2024-09-23
paper pdf:http://arxiv.org/pdf/2409.15052v1
摘要:
在本文中,我们以兄弟会(Brotherhood)为队名介绍了我们的系统,该系统用于英译洛多模翻译任务。我们参与了英语-印度语、英语-汉语、英语-孟加拉语和英语-马拉雅拉姆语对的多模态翻译任务。我们提出了一种利用多模态大语言模型(LLM)(特别是 GPT-4o 和 Claude 3.5 Sonnet)的方法,无需传统的训练或微调即可增强跨语言图像字幕。我们的方法利用经过指令调整的提示来生成有关裁剪图像的丰富语境对话,并将其英文标题作为附加语境。然后将这些合成对话翻译成目标语言。最后,我们采用加权提示策略,平衡原始英文标题和翻译对话,生成目标语言的标题。这种方法取得了有竞争力的结果,在英语-印度语挑战集上的 BLEU 得分为 37.90,在英语-汉语挑战和评估排行榜上分别排名第一和第二。我们在 250 幅图像的子集上进行了更多实验,探索不同加权方案下 BLEU 分数和语义相似性之间的权衡。
12.Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models
标题:利用视觉语言模型,通过零镜头物体分类,探索细粒度零售产品分辨能力
author:Anil Osman Tur, Alessandro Conti, Cigdem Beyan, Davide Boscaini, Roberto Larcher, Stefano Messelodi, Fabio Poiesi, Elisa Ricci
publish:Accepted at 2024 IEEE 8th Forum on Research and Technologies for
Society and Industry Innovation (RTSI) conference
date Time:2024-09-23
paper pdf:http://arxiv.org/pdf/2409.14963v1
摘要:
在智能零售应用中,由于产品种类繁多、周转频繁,因此必须采用可靠的零镜头对象分类方法。零镜头假设对于避免每次新产品入库或现有产品进行品牌重塑时重新训练分类器至关重要。在本文中,我们做出了三项重要贡献。首先,我们引入了 MIMEX 数据集,该数据集包含 28 个不同的产品类别。与现有文献中的数据集不同,MIMEX 专注于细粒度的产品分类,并包含各种零售产品。其次,我们在拟议的 MIMEX 数据集上对最先进的视觉语言模型(VLM)的零镜头对象分类性能进行了基准测试。我们的实验表明,这些模型的细粒度分类性能并不令人满意,这凸显了对专门方法的需求。最后,我们提出了一种新颖的集合方法,将 CLIP 和 DINOv2 的嵌入与降维技术相结合,以提高分类性能。通过结合这些组件,我们的集合方法优于 VLMs,有效捕捉了对细粒度产品鉴别至关重要的视觉线索。此外,我们还介绍了一种类适应方法,该方法在标注数据稀缺的情况下利用有限样本进行视觉原型设计,满足了产品种类频繁变化的零售环境的关键需求。为了鼓励进一步研究智能零售应用中的零镜头对象分类,我们将向研究界发布 MIMEX 数据集和基准。感兴趣的研究人员可以联系作者,了解使用条款和条件的详细信息。代码可从以下网址获取:https://github.com/AnilOsmanTur/Zero-shot-Retail-Product-Classification。
13.A-VL: Adaptive Attention for Large Vision-Language Models
标题:A-VL:大型视觉语言模型的自适应注意力
author:Junyang Zhang, Mu Yuan, Ruiguang Zhong, Puhan Luo, Huiyou Zhan, Ningkang Zhang, Chengchen Hu, Xiangyang Li
date Time:2024-09-23
paper pdf:http://arxiv.org/pdf/2409.14846v1
摘要:
大型视觉语言模型(LVLM)集成了计算机视觉和自然语言处理技术,具有巨大的应用潜力。然而,这些模型在推理过程中需要大量资源。自适应注意力技术可以动态减少计算冗余,从而提高效率。虽然目前的自适应注意力方法能大大降低基于 Transformer 的语言模型对内存的需求,但它们并不适合 LVLM。我们观察到,LVLM 同时会对远程图像标记和本地文本标记产生反应,而不同的模式具有不同的注意力模式。这一观察结果启发我们分别管理每种模式的注意力。具体来说,对于视觉输入,我们存储潜在有用信息的缓存,但只计算最关键的部分。对于语言输入,我们更关注局部信息。基于我们对视觉语言注意力模式的观察和分析,我们开发了 A-VL,一种为 LVLM 推理量身定制的即插即用自适应注意力。在三个视觉语言任务和五个数据集上进行的广泛评估表明了我们设计的有效性。我们的 A-VL 方法在减少内存使用量和计算负荷方面优于现有的自适应注意力方法,而不会影响性能。
14.Patch Ranking: Efficient CLIP by Learning to Rank Local Patches
标题:补丁排名:通过学习对本地补丁进行排序实现高效的 CLIP
author:Cheng-En Wu, Jinhong Lin, Yu Hen Hu, Pedro Morgado
date Time:2024-09-22
paper pdf:http://arxiv.org/pdf/2409.14607v1
摘要:
对比图像-文本预训练模型(如 CLIP)已显示出对下游任务的显著适应性。然而,由于视觉转换器(ViT)主干的计算要求较高,它们面临着挑战。目前提高 ViT 效率的策略主要集中在修剪补丁标记上,但在解决 CLIP 的多模态特性和识别最佳标记子集以实现最高性能方面存在不足。为了解决这个问题,我们提出了贪婪搜索方法来建立 “黄金排名”,并引入了一个经过专门训练的轻量级预测器来接近这一排名。为了弥补因标记修剪而导致的性能下降,我们加入了可学习的视觉标记,以帮助恢复并可能提高模型的性能。我们的工作对 CLIP 模型的 ViT 骨干中的标记修剪进行了全面系统的研究。通过我们的框架,我们成功地在 CLIP 的 ViT 中减少了 40% 的补丁标记,而在七个数据集上的平均准确率损失仅为 0.3。我们的研究为在不牺牲性能的前提下建立计算效率更高的多模态模型奠定了基础,解决了高级视觉语言模型应用中的关键难题。
15.Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
标题:视频-XL:用于理解小时级视频的超长视觉语言模型
author:Yan Shu, Peitian Zhang, Zheng Liu, Minghao Qin, Junjie Zhou, Tiejun Huang, Bo Zhao
date Time:2024-09-22
paper pdf:http://arxiv.org/pdf/2409.14485v2
摘要:
尽管目前的多模态大语言模型(MLLM)在视频理解方面取得了可喜的成果,但处理超长视频仍然是一个持续的挑战。通常情况下,MLLM 在处理超过 LLM 最大上下文长度的数千个标记时会非常吃力,而且由于标记聚集,视觉清晰度也会降低。另一个挑战是大量视频标记带来的高计算成本。为了解决这些问题,我们提出了 Video-XL,这是一种超长视觉语言模型,专为高效的小时级视频理解而设计。具体来说,我们认为 LLM 可被用作有效的视觉浓缩器,并引入了视觉上下文潜在总结(Visual Context Latent Summarization),将视觉上下文浓缩为高度紧凑的形式。广泛的实验证明,尽管我们的模型是在有限的图像数据上训练出来的,但它在流行的长视频理解基准测试中取得了可喜的成绩。此外,Video-XL 还在效率和效果之间取得了良好的平衡,它可以在单个 80GB GPU 上处理 1024 个帧,同时在 "Needle-in-a-Haystack "评估中达到近 100% 的准确率。我们预计,Video-XL 将成为视频摘要、监控异常检测和广告投放识别等长视频应用的重要工具。
16.Effectively Enhancing Vision Language Large Models by Prompt Augmentation and Caption Utilization
标题:通过提示增强和字幕利用有效增强视觉语言大型模型
author:Minyi Zhao, Jie Wang, Zhaoyang Li, Jiyuan Zhang, Zhenbang Sun, Shuigeng Zhou
date Time:2024-09-22
paper pdf:http://arxiv.org/pdf/2409.14484v1
摘要:
最近的研究表明,视觉语言大型模型(VLLM)可能会输出与输入图像无关的内容。这个问题被称为幻觉现象,无疑会降低视觉语言大型模型的性能。因此,人们提出了各种反幻觉技术,以使模型输出更合理、更准确。尽管这些技术取得了成功,但通过大量测试,我们发现增强提示(如单词添加、改写和拼写错误等)可能会改变模型输出,使输出再次出现幻觉。为了解决这一问题,我们提出了一个名为 "提示增强和字幕利用(PACU)"的新指令调整框架,以提高 VLLM 在增强提示场景下的生成能力。具体来说,一方面,PACU 利用现有的 LLM 自动增强和评估各种提示。由此产生的高质量提示语可用于增强 VLLM 处理不同提示语的能力。另一方面,PACU 利用图像标题与图像特征和提示共同生成响应。当视觉特征不准确时,LLM 可以从图像说明中捕捉有用的信息来生成响应。在幻觉评估和提示增强数据集上进行的大量实验表明,我们的 PACU 方法可以与现有方案很好地配合,从而有效提高 VLLM 模型的性能。代码见 https://github.com/zhaominyiz/PACU。
17.PromptTA: Prompt-driven Text Adapter for Source-free Domain Generalization
标题:PromptTA:用于无源领域泛化的提示驱动文本适配器
author:Haoran Zhang, Shuanghao Bai, Wanqi Zhou, Jingwen Fu, Badong Chen
date Time:2024-09-21
paper pdf:http://arxiv.org/pdf/2409.14163v1
摘要:
无源领域泛化(SFDG)解决了在无法获取源领域数据的情况下将模型调整到未知目标领域的难题。为了应对这一具有挑战性的任务,SFDG 的最新进展主要集中在利用视觉语言模型(如 CLIP)的文本模式。这些方法包括根据从文本和学习提示中提取的不同风格特征开发可转移的线性分类器,或从领域库中获得领域统一的文本表示。然而,风格特征和领域库在捕捉全面的领域知识方面都有局限性。在这项工作中,我们提出了提示驱动文本适配器(PromptTA)方法,该方法旨在更好地捕捉风格特征的分布,并采用重采样确保领域知识的全面覆盖。为了进一步利用这些丰富的领域信息,我们引入了一种文本适配器,它可以从这些风格特征中学习,从而实现高效的领域信息存储。在四个基准数据集上进行的广泛实验表明,PromptTA 实现了最先进的性能。代码可在 https://github.com/zhanghr2001/PromptTA 上获取。
18.FineMolTex: Towards Fine-grained Molecular Graph-Text Pre-training
标题:FineMolTex:实现精细分子图文本预培训
author:Yibo Li, Yuan Fang, Mengmei Zhang, Chuan Shi
date Time:2024-09-21
paper pdf:http://arxiv.org/pdf/2409.14106v1
摘要:
了解分子结构和相关知识对科学研究至关重要。最近的研究将分子图与其文本描述相结合,以增强分子表征学习。然而,这些研究关注的是整个分子图,而忽略了经常出现的子图(称为主题图),而主题图对于确定分子特性至关重要。如果没有这种细粒度的知识,这些模型就很难推广到未见过的分子和需要图案级洞察力的任务中。为了弥补这一差距,我们提出了 FineMolTex,这是一种新颖的细粒度分子图-文本预训练框架,用于联合学习粗粒度分子级知识和细粒度图案级知识。具体来说,FineMolTex 包括两个预训练任务:用于粗粒度匹配的对比配准任务和用于细粒度匹配的屏蔽多模态建模任务。特别是,后者预测了遮蔽主题和单词的标签,利用了彼此的洞察力,从而使 FineMolTex 能够理解主题和单词之间的细粒度匹配。最后,我们在三个下游任务中进行了广泛的实验,在基于文本的分子编辑任务中取得了高达 230% 的改进。此外,我们的案例研究表明,FineMolTex 能成功捕捉细粒度知识,从而为药物发现和催化剂设计提供有价值的见解。
19.SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information
标题:SURf:教大型视觉语言模型有选择地利用检索到的信息
author:Jiashuo Sun, Jihai Zhang, Yucheng Zhou, Zhaochen Su, Xiaoye Qu, Yu Cheng
publish:19 pages, 9 tables, 11 figures
date Time:2024-09-21
paper pdf:http://arxiv.org/pdf/2409.14083v1
摘要:
大型视觉语言模型(LVLMs)已成为计算机视觉和自然语言处理交叉领域的关键。然而,LVLMs 检索增强生成(RAG)功能的全部潜力仍未得到充分利用。现有研究要么只关注文本模式,要么仅限于特定任务。此外,大多数 LVLM 难以选择性地利用检索到的信息,并且对不相关或误导性的参考信息很敏感。为了应对这些挑战,我们提出了一个自我完善框架,旨在教会 LVLM 选择性地利用检索信息(SURf)。具体来说,当给定的问题被 LVLM 骨干系统错误回答时,我们会获取有助于纠正答案的参考信息(正面参考信息)和无助于纠正答案的参考信息(负面参考信息)。然后,我们结合这些正面和负面参考,对 LVLM 骨干网进行微调。我们在三个任务和七个数据集上进行的实验表明,我们的框架显著增强了 LVLM 有效利用检索到的多模态参考信息的能力,并提高了它们对不相关或误导性信息的鲁棒性。源代码见 https://github.com/GasolSun36/SURf。