Paper301 Unsupervised Object Localization in the Era of Self-Supervised ViTs: A Survey
摘要强调了对于开放世界视觉系统在封闭词汇基准设置之外执行感知任务的兴趣日益增加。与早期依赖数据集中预先告知对象的方法相反,本文探讨了使用自监督预训练特征进行类不可知无监督对象定位的潜力,这种方法不需要对对象有任何先验知识。本文是对无监督对象定位方法的综述,并得到了讨论过的方法库的支持。
Paper302 Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World
这项研究引入了一个新的基准,名为Bongard-OpenWorld,用于评估机器视觉中的少样本推理。这个基准通过包含开放世界的自由形式概念和真实世界图像,创造了一个更具挑战性的环境。它测试了现有的少样本学习算法,并研究了大型语言模型(LLMs)和视觉-语言模型(VLMs)在此环境中解决任务的能力。研究人员探索了一种方法,该方法结合了LLMs、VLMs和逻辑推理,试图模仿人类的解题方式。最佳的学习者仅达到64%的准确率,而人类参与者的准确率为91%,这表明机器与人类的视觉推理能力之间存在显著差距。Bongard-OpenWorld的目标是突出视觉智能中现有的局限性,并推动进一步研究,以改进机器的少样本视觉推理能力。
Paper303 AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion
AutoDIR是一个图像恢复系统,涵盖了潜在的扩散,并具有自动识别和恢复遭受多种未知退化的图像的能力。该系统包括两个阶段:一个是盲图像质量评估阶段,用于检测图像退化;另一个是全能图像恢复阶段,处理多种图像退化类型。该系统在众多图像恢复任务中超越了其他现有方法,并允许用户控制和适应新任务。AutoDIR还提供了开放词汇的图像编辑功能,使用户可以根据自己的需求增强和个性化图像。
Paper304 Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation
本工作的主要贡献是引入了Zero-shot Interactive Personalized Object Navigation (ZIPON),这是一个新型模型,其中机器人可以在与用户对话的同时导航至个人目标对象。论文还提出了一个名为Open-woRld Interactive persOnalized Navigation (ORION)的新框架,该框架利用大型语言模型来制定序列决策,操作用于感知、导航和通信的模块。实验结果表明,能够利用用户反馈的交互式代理取得了巨大改进。尽管取得了这些进展,但在任务完成与导航和交互效率之间找到正确的平衡仍然是一个挑战。作者还研究了不同用户反馈形式对代理性能的影响。此外,还提供了开源代码。
Paper305 Ferret: Refer and Ground Anything Anywhere at Any Granularity
这篇论文介绍了Ferret,一个擅长理解图像内任意形状的空间参照的多模态大型语言模型(MLLM)。它使用了一种独特的混合区域表示方法,结合了离散坐标和连续特征来表示图像中的一个区域。该模型还包括一个空间感知视觉采样器,特别擅长处理形状间的不同稀疏性。Ferret能够处理多种区域输入,如点、边界框和自由形状。为了提升Ferret的能力,使用了一个新整理的数据集GRIT,其中包含超过110万样本。该模型在传统的指代和定位任务中表现出色,并在基于区域的、需要定位的多模态聊天角色中优于其他MLLMs。该模型在描述图像细节方面表现出效率,并减轻了对象幻觉问题。源代码和数据将在线提供。
Paper306 Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models
这篇论文讨论了一种将大规模、预先训练的静态图像模型重新用于二维视频中的目标跟踪的新方法。该技术集成了检测器、分割器和光流估计器,并预测了单目视频中伴随语言描述的目标轨迹。目标跟踪和分割的过程涉及检测目标实例并逐帧传播。该技术在显著的视频目标分割和跟踪基准测试中取得了强大的性能,并且超过了UVO和BURST中现有的最先进技术。最值得注意的是,这是在没有专门训练跟踪的情况下完成的,这表明它作为未来该领域研究的有价值工具的潜力。
Paper307 Let Models Speak Ciphers: Multiagent Debate through Embeddings
文章介绍了一种名为CIPHER的新型通信机制,专为解决大型语言模型(LLMs)中的信息丢失问题而特别开发。该系统不是使用自然语言,而是通过原始变换器输出嵌入的期望来传递信息,从而消除了标记采样步骤。这种方法被证明是有效的,因为它在不修改模型权重的情况下编码了更广泛的信息谱——在五个推理任务和各种开源LLMs上,性能比现有方法提高了0.5-5.0%。这为设计LLM系统内部的交互提供了新的方向,可能对未来该领域的发展产生影晌。
Paper308 OV-PARTS: Towards Open-Vocabulary Part Segmentation
摘要讨论了创建一个名为开放词汇部件分割(OV-PARTS)的基准,以应对计算机视觉和机器人任务中部件级语义分割的挑战。尽管在对象级的开放词汇语义分割(OVSS)方面已取得进展,但部件分割由于复杂的边界、有限的标注数据和开放世界中部件定义的模糊性,呈现出额外的挑战。现有的大规模视觉和语言模型也难以像整体对象那样有效地识别部件。OV-PARTS基准优化了两个公开可用的数据集,并涵盖了三个任务,以评估模型在广义零样本部件分割、跨数据集部件分割和少样本部件分割方面的能力。现有的对象级OVSS方法也进行了分析和调整,以适应OV-PARTS。进行了广泛的实验分析,以激发该领域未来的研究。此项目的代码和数据集已公开可用。
Paper309 Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching
这项研究介绍了一种新颖的基于图像的动物身体和面部关键点检测框架,无需预先注释。传统方法通常需要费力的手动注释或支持图像作为参考;然而,新开发的开放词汇关键点检测与语义特征匹配(KDSM)依赖于文本提示来识别关键点。KDSM框架结合了视觉和语言模型,并融入了各种模块以提高性能,如视觉-关键点关系感知(VKRA)模块。实验表明,KDSM在性能上显著优于基线框架,甚至在以零样本方式运行时,其结果与最先进的少样本物种无关关键点检测方法相当。源代码将公开可用。
Paper310 Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and Data
本文介绍了Open-VCLIP++,这是一个建立在对比语言-图像预训练(CLIP)模型之上的框架,旨在使其适用于零样本视频识别。Open-VCLIP++仅对CLIP进行了最小程度的修改,以帮助识别视频中的时空关系,实质上成为一个专门的视频分类器。作者建立了一种训练方法,该方法虽然模仿了持续学习,但没有历史数据,为此开发了一种称为插值权重优化的解决方案。为了使CLIP更好地转移到视频环境中,此方法还使大型语言模型与视频特征对齐,以进行详细视频描述。在多种零样本评估数据集上进行测试时,Open-VCLIP++显著优于当前领先的方法,展示了其在视频到文本和文本到视频检索方面的鲁棒性。作者已将他们的代码公开。
Paper311 Compositional Semantics for Open Vocabulary Spatio-semantic Representations
这篇论文提出了一种新的方法,使移动机器人能够完成复杂任务。该方法涉及使用大型语言模型(LLMs)和视觉-语言模型(VLMs),但重点在于开发所谓的潜在组合语义嵌入(z*)。这一概念使机器人能够超越当前感知进行推理,并理解复杂环境。研究人员为z提供了数学原理证明,并证明它可以通过迭代梯度下降优化被发现。他们在四个不同的嵌入空间上测试了他们的发现,证明z可以代表许多编码的语义。他们的结果还表明,使用他们方法训练的VLM能够学习多个重叠语义的z*,并且在分割性能上优于现有的最先进方法。
Paper312 Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation
这篇论文强调了Open-Fusion的发展,这是一种利用RGB-D数据的实时3D建图和场景表示方法。该系统利用预先训练的视觉-语言基础模型(VLFM)来理解开放集语义,并使用截断符号距离函数(TSDF)进行快速3D场景重建。使用VLFM允许提取基于区域的嵌入和置信图,这些嵌入和置信图通过与改进的基于匈牙利算法的特征匹配机制与TSDF的3D知识相结合。值得注意的是,Open-Fusion不需要额外的3D训练,并且在基准测试中优于其他方法,同时还能支持实时的3D场景理解,包括对象概念和开放世界语义。
Paper313 CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection
这篇论文介绍了一种新颖的方法——CoDA,解决了开放词汇三维目标检测(OV-3DDet)中的两个基本问题,即新物体的定位和分类。CoDA使用了一种三维新物体发现策略,利用3D框几何和2D语义开放词汇先验来定位新的三维物体。它还引入了一个跨模态对齐模块来分类这些框。这种对齐过程是迭代的,在发现新物体时将它们纳入其中,并逐步增强对齐,在物体发现和特征对齐之间建立一种共生关系。在两个具有挑战性的数据集SUN-RGBD和ScanNet上进行测试时,CoDA在mAP性能上超过了以往最佳方法80%。代码和预训练模型已在项目网页上共享。
Paper314 CLIP Is Also a Good Teacher: A New Learning Framework for Inductive Zero-shot Semantic Segmentation
文章提出了一种新的训练框架CLIP-ZSS(零样本语义分割),专为测试中的零样本和开放词汇任务量身定制,而无需使用大规模视觉语言模型(VLMs)。该框架包括两个基本模块:全局学习模块(GLM)和像素学习模块(PLM)。GLM通过推动/拉动机制从CLIP视觉编码器中提取知识。PLM旨在区分未见过的类别,使用伪标签和权重生成。它采用多尺度K-Means操作与掩膜融合来语义区分伪标签,并引入一个合成器生成未标注区域的伪语义特征。在三个基准测试上的实验结果表明,与现有方法相比,性能有了显著提升。
Paper315 CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction
这项研究深入分析了在对比语言-图像预训练(CLIP)模型中的区域-语言对齐,这对于提高图像任务中的开放词汇预测至关重要。论文介绍了一种名为CLIPSelf的方法,该方法可以定制CLIP视觉变换器(ViTs)的图像级识别,使其适应局部图像区域,而无需任何区域-文本对。这个过程涉及ViTs将来自其密集特征图的区域表示与相应图像裁剪的图像级表示进行对齐。这种增强型模型在对象检测、语义分割和全景分割方面树立了新的先例。研究还提供了开发出的模型和代码的开源访问。
Paper316 DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection
这篇论文介绍了一种新的开放词汇目标检测(OVOD)策略,该策略使用预训练的视觉-语言模型(VLM)如CLIP进行零样本分类。与当代方法不同,这种被称为“自训练”的策略在训练过程中将一部分提案分配为背景,之后这些背景被当作新类处理。这种方法在不需额外标注、数据集或重新训练的情况下,为新类实现了更高的召回率和准确率。在三个数据集上的评估显示,相较于基线性能有显著提升,且没有引入额外的参数或计算成本。此外,它在LVIS、V3Det和COCO数据集上的表现也优于之前的F-VLM方法,且无需添加额外数据。代码和模型已公开可用。
Paper317 Detection-Oriented Image-Text Pretraining for Open-Vocabulary Detection
这篇论文介绍了一种新的开集检测方法,该方法使用面向检测的图像文本预训练,从而缩小了图像级预训练与开集目标检测之间的差距。在预训练阶段,他们没有使用通常的分类架构,而是采用了检测器架构。这样做是为了更好地满足区域级识别需求,使检测器头能够从噪声图像文本对中学习。他们还引入了一种移位窗口学习方法,以获得更稳健、平移不变且偏见较小的骨干表示。他们新颖的方法仅使用标准的对比损失,无需伪标签,使对比学习能够学习新兴的对象语义。该方法使用ViT-L骨干在LVIS开集检测基准上设定了新的标准。在COCO基准上,它在不使用伪标签或弱监督的情况下取得了极具竞争力的结果。此外,这种方法在迁移检测设置上超过了基线。结果显示,与基线相比,预训练配方中揭示了新兴的对象局部性。相关代码和模型将公开发布。
Paper318 PEACE: Prompt Engineering Automation for CLIPSeg Enhancement in Aerial Robotics
本文介绍了机器人领域安全着陆技术的进展。在之前的工作DOVESEI的基础上,引入了PEACE(用于CLIPSeg增强的即时工程自动化)来自动化生成提示,同时考虑环境的变化。该系统使用单目相机和图像分割来实现安全着陆和避障,即使在低海拔也能有效工作。与标准提示相比,PEACE在空中图像的提示生成方面取得了显著的改进。与DOVESEI相结合,该系统将成功选择安全着陆区域的能力提高了58%以上。系统的源代码作为开源代码提供。
Paper319 Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization
这项研究引入了一个大规模的公共合成数据集,用于提高自动语音识别(ASR)系统的性能,尤其是在识别罕见和词汇表外的短语方面。提出的方法模拟了数百万个真实生活场景,在这些场景中ASR可能会出错,并提供了一种将“困难负样本”引入训练样本的机制。实验表明,使用这些困难负样本偏置短语可以降低词错误率(WER)和误报率。研究人员还分享了他们自动发现这些困难负样本的方法。
Paper320 TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields
文章介绍了TextField3D,这是一个条件3D生成模型,旨在解决文本-3D数据的局限性,包括有限的词汇量和文本控制。通过将动态噪声注入文本提示的潜在空间,该模型能够将有限的3D数据映射到扩展文本潜在空间的适当范围内。论文提出了两个模块:NTFGen,用于建模通用文本潜在代码;以及NTFBind,用于将图像潜在代码与噪声场对齐。该模型通过文本-3D和文本-2.5D判别器进行多模态判别的指导。TextField3D确保了大的词汇量、一致的文本和低延迟,从而提高了开放词汇3D生成的效果。
Paper321 ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning
该研究提出了ConceptGraphs,这是一种用于3D场景的图结构表示形式,旨在解决最近方法中发现的局限性。ConceptGraphs使用2D基础模型,并通过多视角关联将其输出融合到3D,从而创建出可扩展、紧凑且高效的地图,这些地图涵盖了更大环境中的语义空间关系。它还消除了收集大型3D数据集和微调模型的需求,并能泛化新的语义类别。这种表示形式在多个下游规划任务中的实用性得到了展示,这些任务需要针对空间和语义概念进行复杂的推理。
Paper322 Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs
作者们引入了一个开放词汇的3D场景图(OVSG)——这是一个新的框架,用于通过自由形式的基于文本的查询来定位各种实体(对象实例、代理、区域等)。该系统在基于语义的对象定位技术上的改进之处在于,它允许上下文感知的实体定位和开放词汇查询。研究者们通过在ScanNet数据集和他们的数据集上进行比较实验,证实了OVSG明显优于早期的基于语义的定位方法。他们还展示了OVSG在现实世界的机器人导航和操作实验中的实际应用。
Paper323 Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-time Visual Scene Understanding
研究表明了LEXIS,这是一个实时的室内同时定位与建图(SLAM)系统,它使用大型语言模型(LLMs)来理解和与环境互动。与现有模型不同,该系统对于室内移动和辅助自主系统更加适应,因为它首先构建了环境的地形SLAM图,然后使用对比语言-图像预训练(CLIP)特征来嵌入图的节点中。这种方法对于灵活的房间分类、分割以及指导搜索向语义相关的地方进行都很有用。系统成功地分类了不同的房间类型,并且优于现有技术水平模型,为地点识别和轨迹估计提供了等效的性能。研究还展示了该系统在规划方面的潜力。
Paper324 Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features
这篇研究介绍了一种以对象为中心的开集词汇图像检索新方法。该方法通过将来自CLIP的密集嵌入聚合成一种紧凑形式,融合了图像检索管道的可扩展性和密集检测方法的有效对象识别。该方法在三个数据集上的表现显著优于全局特征方法,准确度提高了最多15个mAP点。研究还包括将这种方法纳入大规模检索框架中,展示了在可扩展性和可解释性方面的优势。
Paper325 MoCaE: Mixture of Calibrated Experts Significantly Improves Object Detection
这篇论文讨论了将专家对象检测器结合起来形成一个专家混合模型。然而,研究人员发现,如果简单地组合这些模型,由于校准不准确,可能会导致性能下降——也就是说,专家的预测并不总能反映他们的实际表现。为了解决这个问题,作者提出了一个校准过的专家混合模型,其中预测被校准得更加准确,以更好地反映专家的表现。这种方法已经显示出可以改善对象检测任务,在COCO和DOTA测试中达到最先进的性能,并在其他检测任务上始终优于单一模型。
Paper326 Unsupervised 3D Perception with 2D Vision-Language Distillation for Autonomous Driving
本文提出了一种多模态自动标注管道,用于识别和跟踪所有交通参与者,以应用于自动驾驶等场景。该管道在先前模型的基础上进行了改进,通过无监督的方式识别静态和移动对象,无需3D人体标签。这是通过结合点云序列上的运动线索和免费提供的2D图像-文本对实现的。该系统还通过视觉-语言知识蒸馏技术生成不断演变的语义标签。所提方法的效率已在Waymo开放数据集上通过实验得到验证,结果显示显著优于之前的工作。
Paper327 CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic Segmentation For-Free
本研究提出了一种名为CLIP-DIY的开集词汇语义分割方法,该方法利用了无监督对象定位技术,且不需要额外的训练或标注。这种多尺度方法直接利用CLIP对各种大小的图像块进行分类,并将决策整合到单个地图中。语义分割进一步通过从无监督对象定位方法获得的前景/背景分数进行指导。该方法在PASCAL VOC上取得了先进的零样本语义分割结果,并在COCO上与顶尖方法取得了相当的性能。源代码已在线提供。
Paper328 DeWave: Discrete EEG Waves Encoding for Brain Dynamics to Text Translation
这篇文章介绍了一个名为DeWave的新框架,该框架将大脑动态转换为自然语言,用于脑机接口,在EEG到文本的翻译中使用了离散编码序列。与现有方法不同,DeWave不需要眼动追踪注视点或事件标记来分割大脑动态。相反,它使用文本-EEG对比对齐训练从原始波形进行翻译,并使用不变的离散密码本以减少EEG波形中个体差异的干扰。该模型在ZuCo数据集上的表现优于之前的模型,并且是首个在不使用词级顺序标记的情况下翻译整个EEG信号周期的模型。
Paper329 MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation
本文介绍了MosaicFusion,这是一种独特的基于扩散的数据增强方法,可以在不需要任何训练或标签监督的情况下优化大型词汇实例分割。该系统使用现成的文本到图像扩散模型来创建对象实例和掩膜注释的数据集。这种方法将图像画布划分为多个部分,并使用不同的文本提示的扩散过程来创建多个实例。它还通过整合与对象提示相关的跨层和扩散时间步长的跨注意力图来获得相关实例掩膜。该方法为新颖和稀有类别生成了大量合成标记数据。在LVIS长尾和开放词汇基准测试上的测试表明,实例分割模型有了显著改进,尤其是对于新颖和稀有类别。源代码将公开可用。
Paper330 LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent
该研究为家用机器人呈现了一种新颖的、零样本的、开放词汇的3D视觉定位管道LLM-Grounder。这种新方法使用大型语言模型(LLM)将复杂的语言查询分解为语义成分,并使用视觉定位工具(如OpenScene或LERF)来识别3D场景中的对象。该系统不需要标记训练数据,可以适应新的3D场景和任意的文本查询。在ScanRefer基准测试中,LLM-Grounder展示了卓越的定位准确度,这表明它在机器人技术中的复杂3D视觉-语言任务中是有效的。
Paper331 Policy Patterns for Usage Control in Data Spaces
本文的主要贡献集中在努力保护和管理移动数据空间中的数据;这是交换移动数据的平台,可以推动交通革命。关键贡献包括自动化合同谈判和数据使用政策的开发。它还提供了一个全面的策略模式列表,用于使用控制,以适应常见的数据共享和管理场景。本文的一个显著建议是采用并扩展开放数字权利语言(ODRL),以正式收集这些政策,并对数据空间属性做具体引用。
Paper332 Open-Vocabulary Affordance Detection using Knowledge Distillation and Text-Point Correlation
这篇文章介绍了一种新的方法,用于在3D点云中检测可供性,该方法利用了知识蒸馏和文本点相关性。这种方法提高了对复杂3D形状和现实世界物体上广泛的可供性的理解,同时提供了开放词汇支持。预训练的3D模型用于增强特征提取和语义理解,并引入了一种新的相关方法,将点云特征与开放词汇标签相连接。这种新颖的方法优于现有方法,mIOU得分提高了7.96%。重要的是,它支持实时推理,使其非常适合机器人操作应用。
Paper333 Language-Conditioned Affordance-Pose Detection in 3D Point Clouds
本文重点研究了通过在三维点云中进行语言条件下的可行性-姿态联合学习的新方法,提高机器人的操作能力。与之前依赖预定义可行性行为集合的方法不同,这种方法允许检测到可行性区域,并使用开放词汇可行性检测分支和语言引导扩散模型为任何不受限制的可行性标签生成合适的6自由度(6-DoF)姿态。作者还为此任务引入了一个新的高质量数据集。大量的实验结果证明,提出的方法在显著优势上超过了其他基线方法,并在现实环境中的应用。作者提供了公开可访问的代码和数据集。
Paper334 Unsupervised Open-Vocabulary Object Localization in Videos
本文提出了一种无监督的视频对象定位方法,该方法利用了视频表示学习和预训练视觉-语言模型方面的最新进展。该方法首先使用槽注意力定位对象,然后通过读取预训练CLIP模型中的局部语义信息为这些槽分配文本。该方法的特点是完全无监督,仅依赖于CLIP中的隐式注释,并在标准视频基准测试中取得了成功的结果。
Paper335 A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting
文章介绍了一种名为关键词识别增强的Whisper(KWS-Whisper)的新型自动语音识别(ASR)系统。该系统利用Whisper模型隐藏状态上的开放词汇关键词识别(OV-KWS)来识别很少使用的人名和专业术语。识别出的实体作为Whisper解码器的提示。该系统采用多任务训练方法来学习OV-KWS和上下文ASR任务。研究表明,与原始Whisper模型相比,KWS-Whisper提高了实体回忆。研究还表明,OV-KWS可以用于增强ASR错误校正方法。
Paper336 Object2Scene: Putting Objects in Context for Open-Vocabulary 3D Detection
文章介绍了Object2Scene,这是第一种利用大规模大词汇量的3D对象数据集来增强现有3D场景数据集的方法,旨在提高开放词汇3D对象检测的能力。该策略涉及将来自不同来源的对象插入3D场景中,以扩大3D场景数据集的词汇量。同时,它还为添加的新对象生成了文本描述。此外,文章提出了L3Det,一个容纳3D检测和视觉基础框架,并建议采用跨领域类别级对比学习方法,以减少不同数据集中的3D对象之间的领域差距。Object2Scene的有效性通过在现有的开放词汇3D对象检测基准上进行大量实验得到验证,包括一个新的基准,即OV-ScanNet-200。结果显示,Object2Scene在性能方面超过了现有方法。
Paper337 Open-vocabulary Keyword-spotting with Adaptive Instance Normalization
本研究介绍了AdaKWS,这是一种用于自动语音识别(ASR)中的关键词检测的新方法。与常见方法不同,AdaKWS训练一个文本编码器来输出关键词条件归一化参数,这些参数用于处理听觉输入。该方法的有效性通过使用多种多样的多语种基准进行验证,结果显示与近期关键词检测和ASR基线相比有显著改进。研究还探讨了该方法在训练期间未见过的低资源语言上的表现,与基线方法相比,显示出相当大的性能提升。
Paper338 Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks
提出的VoxtLM,一个仅解码器的语言模型,其主要贡献包括能够执行四项任务——语音识别、语音合成、文本生成以及利用集成的文本词汇和自监督语音特征的离散语音令牌以及用于多任务学习的特殊令牌进行语音续接。与单任务模型相比,它改善了语音合成,无论是在语音可懂度还是客观质量方面。此外,它在语音生成和识别任务中也表现出更好的性能。该模型使用公开可用的数据进行训练,并提供了开源的训练配方和模型检查点,以实现完全的可复现性。
Paper339 PAI-Diffusion: Constructing and Serving a Family of Open Chinese Diffusion Models for Text-to-image Synthesis on the Cloud
文章提出了PAI-Diffusion,这是一个全面的中国文本到图像合成的框架,用以应对汉语庞大词汇量和复杂字符关系带来的挑战。该框架包括通用和特定领域的中文扩散模型,并使用LoRA和控制网(ControlNet)进行细粒度的图像风格转换和编辑。该框架与阿里巴巴云的机器学习平台集成,提供可扩展的解决方案。所有模型检查点、LoRAs和控制网都是公开可访问的。作者还提出了一个用户友好的中文WebUI,以及一个易于部署的diffusers-api弹性推理工具包,该工具包也是开源的。
Paper340 Panoptic Vision-Language Feature Fields
本文介绍了首个用于3D场景的开集全景分割算法,名为全景视觉-语言特征场(PVLFF)。该算法从预训练的2D模型中提取视觉-语言特征,并通过对比学习拟合实例特征场。它不仅在未知类别上的全景分割性能接近现有最优的3D系统,而且在语义分割上也优于现有的3D开集词汇系统。文章还通过消融实验证明了模型架构的有效性。
Paper341 Tracking Anything with Decoupled Video Segmentation
该研究专注于开发一种解耦的视频分割方法(DEVA),无需全面的特定任务视频训练数据就能实现“追踪任何事物”。DEVA将特定任务的图像级分割与通用的类别或任务不可知双向时间传播相结合。这种设计只需为目标任务提供一个图像级模型,该模型训练起来成本效益更高,以及一个能在各种任务中工作的通用时间传播模型。研究发现,在多种数据稀缺的情况下,DEVA与端到端方法在执行任务时具有较好的比较优势。
Paper342 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
这篇摘要的主要贡献是提出了对比层解码(DoLa),这是一种新颖的解码策略,旨在减少大型语言模型(LLMs)中的幻觉和信息错误,且不依赖于外部知识。DoLa战略性地对比不同变换器层的logits,以获得下一个标记的分布。研究表明,该技术能够提高事实知识的定位精度并减少错误事实的生成。实施DoLa在各种任务中提高了真实性,使LLaMA模型在TruthfulQA上的性能提高了12-17%的绝对分数。这表明DoLa可能有助于提高LLMs的可靠性,从而增强它们提供事实信息的能力。
Paper343 Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation
研究表明,一种新的解决方案可以从标准窄视角图像生成360度图像,这一解决方案解决了现有方法在精细细节和与用户提示的一致对齐方面的不足。研究引入了自回归全知生成网络(AOG-Net),该网络逐步使用窄视角和文本指导来完善不完整的360度图像。这种方法能够生成更详细的输出,并在图像生成过程中给用户带来更大的灵活性。全局-局部条件机制用于指导完善过程,整合文本指导、视觉线索、窄视角输入和全知几何。AOG-Net模型还可以应用大规模模型进行编码和生成先验,使用广泛的开词汇文本指导。该方法的有效性通过使用常见360度图像数据集的实验得到证明,展示了其在室内外设置中的优越性能。AOG-Net模型的代码将公开可用。
Paper344 Diffusion Model is Secretly a Training-free Open Vocabulary Semantic Segmenter
这篇论文的主要贡献是引入了一种新的、无需训练的语义分割方法,称为DiffSegmenter,它利用了如Stable Diffusion等生成性文本到图像扩散模型。这种方法利用模型对完整对象形状及其相应语义的隐式学习来执行语义分割。作者进一步发现,对象形状在自注意力图中得到表征,而语义则在交叉注意力图中得到指示。他们还设计了有效的文本提示和类别过滤机制来增强分割结果。在三个基准数据集上的实验表明,使用这种方法进行开放词汇语义分割取得了成功的结果。
Paper345 DeViL: Decoding Vision features into Language
该研究介绍了一种名为DeViL的方法,该方法将视觉特征解码为自然语言,以生成对视觉骨干网络中各个层次已学习内容的描述。该系统使用一个变压器网络将来自任何视觉层次的图像特征转化为提示,然后由一个单独的现成语言模型将其翻译成自然语言。该模型可以泛化图像-文本对训练,以生成局部化解释,并创建与训练范围之外的单词或短语相对应的开集词汇归因图。DeViL在CC3M上的表现证明了其有效性,超过了之前的轻量级字幕模型,并揭示了视觉骨干网络学习到的概念。此外,它在MILANNOTATIONS数据集的神经元级别的描述上超越了当前领先者。
Paper346 Recognition of Heat-Induced Food State Changes by Time-Series Use of Vision-Language Model for Cooking Robot
研究表明,使用视觉-语言模型提出了一种统一的方法来识别机器人烹饪状态的变化。该模型能够区分一系列时间顺序中的各种对象。研究通过使用真实机器人作为概念验证,收集了烹饪过程中四种典型状态变化的数据。论文还分析了条件,并讨论了哪种自然语言提示和图像区域在识别这些状态变化中最有效。
Paper347 EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment
这篇论文指出了像CLIP这样的视觉-语言模型的一个局限性,即它们过于拟合基本类别,并难以检测与基本类别相似的新类别。论文建议,这种过拟合是由于细粒度的局部图像语义的丢失造成的。为了解决这个问题,研究者们提出了早期密集对齐(EDA),该方法侧重于在对象级监督的帮助下学习密集级别的对齐,以保留这些局部语义。广泛的实验表明,这种方法显著提高了新对象的检测能力,在COCO上提高了新框AP50,在LVIS上提高了罕见掩码AP,而且无需额外的训练资源。
Paper348 Contrastive Feature Masking Open-Vocabulary Vision Transformer
这篇论文介绍了一种新的用于开放词汇目标检测的图像文本预训练方法:对比特征掩码视觉变换器(CFM-ViT)。该方法将掩码自动编码器目标与对比学习目标相结合,以增强图像和区域级别的表示。论文还引入了位置嵌入丢弃(PED)来管理预训练和检测微调之间尺度变化的问题。CFM-ViT模型在LVIS开放词汇检测基准测试中超越了现有方法的性能,并展示了出色的零样本检测迁移能力。此外,该模型在图像级别表示上也取得了成功,在零样本图像文本检索基准测试的12个指标中有8个超过了竞争对手。
Paper349 OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation
这项研究的作者介绍了一种新颖的管道,名为OpenIns3D,它专为无需使用2D图像的开放词汇3D场景理解而设计。该管道采用了一种“Mask-Snap-Lookup”方案,包括一个用于3D点云中的类无关掩模提议的掩模模块,一个用于生成合成场景级图像并提取对象的快照模块,以及一个用于使用Mask2Pixel地图对提议的掩模进行分类的查找模块。该方法在多个室内外数据集上取得了最先进的成果,并且与现有的2D检测器无缝协作。当与先进的2D模型结合使用时,它在开放词汇实例分割上取得了令人印象深刻的结果,并且可以处理非常复杂的文本查询。
Paper350 What Makes Good Open-Vocabulary Detector: A Disassembling Perspective
文章介绍了一种新的目标检测范式——开放词汇检测(OVD),旨在定位和识别预定义类别之外的对象。作者认为,在创建高效OVD检测器时,应当对新颖对象类别进行分类和定位研究。接着,研究者分析了三种不同的OVD方法,每种方法的设计重点各不相同。在不同的设置下对所提出的方法进行的实验发现,解耦区域建议网络和感兴趣区域(ROI)头(DRR)在OVD-COCO基准和OVD-LVIS中的罕见类别上具有最佳性能。最后,提供了一个目标检测数据集PID以及一个基线。
Paper351 AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation
研究介绍了一种新颖的框架AttrSeg,用于开放词汇的语义分割。AttrSeg利用属性分解和聚合来处理在推理过程中遇到的新概念。它将类别名称分解为属性描述,对于常见类别使用大型语言模型,对于人造类别则使用手动标注。然后,将这些属性聚合为一个统一的描述符,一个分类器,以区分目标对象与其他对象。还提出了一种层次聚合结构,以进一步利用聚类模块。在用属性描述标注了三个数据集并进行了各种实验和消融研究后,这种新模型的有效性得到了确认。这种创新方法在处理低质量的文本类别名称、超出预训练词典的新词以及难以描述的类别方面表现出优越的结果。
Paper352 The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants
这篇论文的主要贡献包括介绍了Belebele,这是一个涵盖范围广泛的多个选择题机器阅读理解(MRC)数据集,包含122种语言变体,这是自然语言理解(NLU)基准的一次飞跃。该数据集允许在具有不同资源水平的语言之间评估文本模型。其设计旨在挑战不同通用语言理解能力的模型。这个数据集允许跨语言的模型性能比较,因为它完全是平行的。利用这个数据集测试了MLMs(多语言模型)和LLMs(大型语言模型)的能力。结果显示,与以英语为中心的LLMs相比,平衡的多语言数据预训练MLMs在更多语言上表现更好,具有实质性的跨语言迁移。它还表明,在低资源语言上更好的表现与更大的词汇量及其有意识的构建之间存在相关性。该数据集为检查和分析NLP系统的多语言能力开辟了新的方法和分析途径。
Paper353 Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection
本文提出了一种新的探索,即利用多模态上下文知识来改进开放词汇目标检测(OVD)。作者提出了MMC-Det,一个多模态上下文知识蒸馏框架,它通过多种多样的多模态掩码语言建模(D-MLM)将学到的上下文知识从“教师”融合变压器传递给“学生”检测器。D-MLM功能利用对象发散约束对抗传统MLM,以提取更好的目标检测所需的重要区域级视觉上下文。当在几个检测数据集上进行测试时,该框架相较于其他尖端方法显示出显著的改进。
Paper354 Shatter and Gather: Learning Referring Image Segmentation with Text Supervision
这篇研究提出了一种弱监督学习方法,用于指代图像分割,这是一种根据自由形式文本描述分割任意实体的任务。该方法仅使用训练图像的文本描述作为监督,解决了手动标注的高昂成本问题。研究人员引入了一个新模型,该模型能够识别图像中的语义实体,并将它们与文本查询相关联以预测掩码。他们还提出了一种新的损失函数,省去了进一步监督的需求。该方法在四个公共基准测试中的评估显示,其性能相较于现有方法和最近的开放词汇分割模型有显著提升。
Paper355 ORES: Open-vocabulary Responsible Visual Synthesis
这篇文章介绍了一种新的方法,称为开放词汇负责任的视觉合成(ORES),它使视觉合成模型能够在允许用户输入的同时避免不想要的视觉概念。它提出了一个两阶段干预(TIN)框架,该框架使用大规模语言模型重写指令,并使用扩散合成模型进行即时干预,从而合成既符合用户输入又避免某些概念的照片。作者还提供了一个数据集、基线模型和评估方法的基准,证明该方法在降低图像生成风险方面是有效的。大规模语言模型在负责任的视觉合成中的实用性也被强调。随附的代码和数据集是公开可用的。
Paper356 How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection
文章提出了一个针对开放词汇检测(OVD)模型的新基准,名为OVDEval。这个基准包含了九个子任务,它们全面测试了OVD模型的能力,并引入了对常识知识、属性理解、位置理解、对象关系理解等方面的评估。该数据集包含了难以辨别的负样本,用以测试模型对视觉和语言输入的理解,揭示了当前OVD模型的弱点。此外,还提出了一个新指标,即非最大值抑制平均精度(NMS-AP),它提供了对这些模型更准确的评估。研究人员发现,当前领先的OVD模型在处理新任务方面不够完善,这突显了所提出数据集的重要性。数据已在GitHub上公开,供进一步研究使用。
Paper357 Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment
这篇论文介绍了一种名为自我结构语义对齐(S3A)的框架,用于零样本分类场景,在这些场景中不假设有注释或理想的词汇。S3A框架使用了一种独特的群组-投票-提示-重新对齐(CVPR)算法,该算法迭代地对未标记数据进行分组,以推导出伪监督的语义结构。CVPR过程包括对图像进行聚类,在每个聚类内进行投票以确定类别候选,使用大型语言模型生成提示,以及重新对齐图像以实现语义对齐。S^3A方法在现有基于视觉语言模型的方法上取得了实质性改进,平均准确率比CLIP提高了15%以上。作者公开发布了他们的代码、模型和提示。
Paper358 BridgeData V2: A Dataset for Robot Learning at Scale
这篇论文介绍了BridgeData V2,这是一个庞大的机器人操作行为数据集,旨在推动可扩展机器人学习研究。该数据集包含了使用低成本机器人在24个环境中收集的超过60,000条轨迹。该数据集以其广泛的任务和环境变化性而独特,有助于发展在各种标准下都能泛化的技能。BridgeData V2与基于目标图像或自然语言指令的开放词汇、多任务学习方法高度兼容。论文还强调了使用模仿学习和离线强化学习方法在数据上进行的成功实验,展示了改进的性能和泛化能力。该团队将公开提供数据集和预训练模型。
Paper359 Toward American Sign Language Processing in the Real World: Data, Tasks, and Methods
这篇论文探讨了在现实世界环境中使用互联网视频进行自动手语处理。它为与手指拼写相关的任务贡献了新的数据集和方法论,手指拼写是手语的一个重要方面,在传统研究中往往被忽视。作者为美国手语引入了三个大规模数据集:ChicagoFSWild、ChicagoFSWild+和OpenASL。使用前两个数据集,作者提出了一种原创方法,通过迭代注意力将手指拼写序列转录为文本,无需显式的手部检测。论文还提出了基于手指拼写开发实用应用程序的任务,例如检测和搜索。通过多任务训练开发了一个检测模型,并提出了一种新颖的方法来在原始手语视频中找到手指拼写的关键词。论文最后概述了一个用于大词汇量、开放领域手语翻译的基准,并提出了应对现实世界环境中翻译挑战的技术。
Paper360 Opening the Vocabulary of Egocentric Actions
这篇文章提出了一种新的方法,通过解耦动词和对象来识别以自我为中心的视频中的动作。该方法克服了现有数据集在动作组成有限和交互对象封闭集合方面的局限性。文章介绍了一种对象不可知的动词编码器,以及一种涉及已见和 新对象的开词汇动作的新型方法。对象编码器应用了使用CLIP表示的提示,使其在识别新的交互对象方面比其他开放词汇视觉识别方法更为成功。所提出的方法在EPIC-KITCHENS-100和Assembly101数据集上进行了实验验证,显示了在其他人失败的泛化方面的良好结果。
Paper361 Dynamic Open Vocabulary Enhanced Safe-landing with Intelligence (DOVESEI)
这项研究为城市空中机器人展示了一个系统,该系统通过使用开放词汇图像分割来确保安全着陆。该系统针对100米的高空,并利用单目摄像头执行低至20米的着陆动作。引入了一种动态焦点、自我调节遮蔽机制,以抵消分割中的波动并引导无人机远离不安全区域。与全球分割方法相比,这种实施将着陆成功率提高了近十倍。该系统的源代码可在网上获取。
Paper362 LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models
文章介绍了LegalBench,这是一个用于研究大型语言模型(LLMs)中法律推理的基准,包括六种法律推理的162个任务。这些任务由法律专业人士创建,强调律师感兴趣的实践能力和技能。文章展示了LegalBench任务如何与流行的法律框架保持一致,便于律师与LLMs开发者之间的沟通。此外,文章还进行了20个开源和商业LLMs的实证研究,说明了它所能启用的研究类型。
Paper363 ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes
这篇文章介绍了ScanNet++,这是一个大型数据集,它结合了室内场景的高质量和商品级别的几何与颜色信息。这些场景是通过激光扫描仪、DSLR相机图像以及iPhone的RGB-D流捕获的。重建的场景带有开放词汇的语义注释,包括模糊标签,以便进行全面的理解。ScanNet++为新颖视图合成提供了一个现实世界的基准,并为3D语义场景理解设定了新的标准。该数据集目前包括460个场景、280,000张DSLR图像以及超过3.7M的iPhone RGB-D帧。
Paper364 Video OWL-ViT: Temporally-consistent open-world localization in video
这项研究提出了一种模型架构和训练方法,可以调整预训练的开放世界图像模型以用于视频中的定位。研究者们使用了开放词汇检测模型OWL-ViT作为开放世界模型,并通过整合一个变压器解码器来适应视频。这个解码器反复使用一帧的输出令牌作为随后帧的对象查询。该模型可以在视频数据上进行端到端的训练,并且相比于跟踪检测基准,它拥有更好的时间一致性,同时保留了骨干检测器的开放世界能力。所提出的模型在TAO-OW基准上进行评估时,成功展示了从广泛的图像-文本预训练中学到的开放世界能力可以有效地转移到各种视频中的开放世界定位。
Paper365 Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models
这篇论文提出了一个新的基准测试——开放词汇视频问答(OVQA),旨在衡量视频问答模型的可泛化性,特别是考虑到罕见和未见过的答案。这解决了先前模型中的局限性,这些模型往往偏向于频繁出现的答案,并在不常见词汇上遇到困难。作者还引入了一种基于图神经网络的创新软语言表达器,通过共享类似词汇的信息来增强对罕见和未见过答案的预测。他们还修改了当前的开放式视频QA模型,通过考虑这些罕见和未见的答案来提高其性能。研究表明,这种方法提高了模型性能,尤其是在罕见和未见过的答案上。他们希望OVQA基准测试能够指导未来的模型评估并激发更多研究。
Paper366 End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations
这篇论文提出了一种改进的神经语音识别免费关键词搜索模型版本,旨在简化与传统语音识别系统相比的搜索过程。他们的模型通过多语言预训练得到增强,并使用一对循环神经网络编码器来编码查询和文档,然后通过点积进行匹配。研究发现,多语言训练显著提高了模型的性能。尽管与传统的关键词搜索系统相比,它在处理短查询和在词汇表中的单词查询方面存在不足,但所提出的ASR-free模型在处理长查询和训练数据中未出现的查询时表现更好。
Paper367 Taming Self-Training for Open-Vocabulary Object Detection
文章介绍了一种名为SAS-Det的新型方法,用于开集词汇目标检测(OVD),采用自训练方式。该方法解决了OVD中自训练的两个显著问题,包括噪声伪标签(PLs)和PLs分布频繁变化。为了应对这些问题,新模型结合了一种分割与融合头,将检测过程分为开放和封闭两个分支,有助于提高性能并减少伪框的噪声。同时,它还引入了一种周期性更新策略,减少了PLs分布变化的频率,有助于稳定训练过程。这个模型效率高且效果显著,优于其他同规模的新模型。
Paper368 Follow Anything: Open-set detection, tracking, and following in real-time
文章介绍了一种名为“跟随任何事物”(FAn)的机器人系统,该系统能够实时检测、跟踪和跟随任何物体。FAn系统是一个开放词汇的多模态模型,能够通过将文本、图像和点击查询与输入图像匹配来检测和分割对象,即使在训练后也能处理新类别,适应遮挡和物体的重新出现。该系统在微型空中车辆上进行了测试,并展示了其实时跟踪感兴趣物体的能力。该系统可以在一台配备6-8 GB显卡的基本笔记本电脑上运行,每秒可处理6-20帧。作者已经将他们的代码开源,以鼓励采用和开发。
Paper369 Foundation Model based Open Vocabulary Task Planning and Executive System for General Purpose Service Robots
这项研究主要概述了一种方法,用于在RoboCup@home中实现一个能够执行通用目的服务机器人(GPSR)任务的机器人系统。所实现的系统将规划与目标检测的基础模型与用于管理机器人动作的状态机任务执行相结合。实施这个系统使得在2022年RoboCup@home日本公开赛中的GPSR取得了重大胜利,得分远高于其他参赛队伍。
Paper370 SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs
作者们提出了一个新的与学术图表相关的综合多轮问答数据集,名为SciGraphQA。这个数据集比之前的最大图表视觉问答数据集ChartVQA大13倍。作者使用了29万篇计算机科学或机器学习的ArXiv论文来生成他们的数据集。生成的问题-答案对话的质量使用GPT-4进行了评估,平均得分为8.7/10。他们还在自己的数据集上测试了不同的机器学习模型,发现LLaVA-13B的表现最为出色。通过包括图表中的序列化数据表来丰富数据集,将LLaVA的0-shot CIDEr得分从0.08提高到了0.15。在使用他们的数据集对LLaVA进行微调后,CIDEr得分达到了0.26。作者们预计,通过包括分割掩码标记和更大的语言模型骨干,将进一步改进。他们的代码和数据已经开源。
Paper371 Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP
这篇论文概述了一种新的开放词汇分割方法,使用单一阶段的冻结卷积CLIP(FC-CLIP)模型。与当前的两步法不同,FC-CLIP显著简化了处理过程,并提供了更好的准确度-成本权衡。该模型利用冻结CLIP骨干的开放词汇分类能力作为强大的掩膜生成器,以及卷积版本的适应性,以适应更大的输入分辨率。当在COCO全景数据上训练并以零样本方式测试时,FC-CLIP在ADE20K、Mapillary Vistas和Cityscapes数据集上超过了之前的模型。该模型在操作中更快,使用的参数更少。FC-CLIP模型在多种开放词汇语义分割数据集上设立了新的最先进性能标准。
Paper372 Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding
本文提出了一种新颖的开放世界实例级场景理解方法,即定位和识别未见过的3D对象类别。这是通过结合预训练的视觉-语言(VL)模型为3D场景的多视角图像生成富含语义的标题来实现的,从而允许将3D形状与标题相关联。通过设计层次化点-标题方法,利用3D点和多视角图像的几何特性,增强了细粒度的视觉-语义表示。提出了一种新的去偏置实例定位方法,以提高在开放世界场景中识别新对象位置的准确性。该方法在三个数据集上的语义、实例和全景分割任务中显示出显著的性能提升,超过了基线方法。代码也将对公众开放使用。
Paper373 Described Object Detection: Liberating Object Detection with Flexible Expressions
这篇论文展示了基于语言信息检测物体的各种进展。作者引入并探讨了一种新的设置,称为描述性目标检测(DOD),它将目标类别名称扩展到语言表达式,并克服了仅对预先存在物体进行定位的限制。为了帮助DOD的研究,创建了一个新的数据集,描述检测数据集( D 3 D^3 D3),其中包含了详细的目标描述及其图像。论文还识别并检查了现有方法的困难,并提出了一个改进参考表达式理解(REC)方法的新基线。本研究中使用的数据和代码免费供进一步研究使用。
Paper374 Efficient Guided Generation for Large Language Models
本文的主要贡献包括展示了如何使用有限状态机,通过状态之间的转换,重新表述“神经文本生成”问题。它引入了一种使用正则表达式和上下文无关文法来指导文本生成的有效方法。这种技术允许构建一个索引,覆盖语言模型词汇,并且可以加强领域特定的知识和约束。这种方法是模型无关的,允许创建可靠的接口。它还改善了生成文本的结构,对令牌序列生成过程增加的最小开销,并且优于现有方法。最后,研究人员在Python库Outlines中提供了一个实现。
Paper375 A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future
这个调查对开放词汇检测(OVD)和分割(OVS)在目标检测和场景理解任务中的最新进展进行了广泛回顾。这些技术旨在对超出预定义类别的对象进行分类,解决了当前全监督检测器和分割器局限性。引入了一种分类法,根据弱监督信号的用途来归类不同的任务和方法论。这些方法论包括视觉-语义空间映射、新颖视觉特征合成、区域感知训练、伪标签、知识蒸馏和迁移学习。调查进一步检查了关键挑战、方法学的优点和缺点,并探索了有前景的未来研究方向。它还对标了每个任务和方法组件,并在线更新这一点。
Paper376 Unified Open-Vocabulary Dense Visual Prediction
这篇文章介绍了一种统一的开集词汇网络(UOVN),用于密集视觉预测。与现有的、针对特定任务的方法不同,UOVN能够同时处理四个常见任务,使其更适合于多种工业用途。它的一个额外优势是能够整合多样化的训练数据,解决开集词汇(OV)密集预测数据相对稀缺的问题。文章详细介绍了两个重大挑战及其解决方案:使用多模态、多尺度、多任务解码机制来处理多模态数据的训练,以及实施独特的UOVN训练系统以减轻领域和任务间的差距。UOVN的成功通过在四个不同数据集上的测试得到了证明。
Paper377 OG: Equip vision occupancy with instance segmentation and visual grounding
本文介绍了一种新的占用预测方法——占用定位(Occupancy Grounding,简称OG),它能够以体素方式执行实例分割和视觉定位。这改进了当前的方法,后者无法区分不同实例。OG的创新之处在于其能够预测用于实例聚类的亲和场,并创建一种关联策略,用于对齐2D实例掩码和3D占用实例。作者还讨论了广泛的实验所获得的成功结果,并指出他们方法的相关代码将很快公开提供。
Paper378 Open-Vocabulary Object Detection via Scene Graph Discovery
文章介绍了一种新的基于场景图的开集词汇(OV)目标检测发现网络(SGDN)。该网络利用现有视觉-语言(VL)训练数据中的场景图线索,这些线索在之前的工作中常常被忽略,用于识别OV对象。论文的贡献包括开发了一种基于场景图的解码器,捕捉场景图以发现OV对象,提出了一种通过构建基于场景图的偏移回归机制来增强场景图提取和对象定位的预测方法,并设计了一种跨模态学习机制,以提高OV对象分类中跨模态嵌入的一致性。该模型的有效性在COCO和LVIS上进行了测试,观察发现,与之前的方法不同,该模型能够处理OV场景图检测。
Paper379 Distilling Large Vision-Language Model with Out-of-Distribution Generalizability
这篇论文探讨了如何通过模型蒸馏过程,使大型视觉-语言模型适用于资源受限设备上的部署。作者关注的是开放词汇的分布外(OOD)泛化问题,这是以往关于模型蒸馏的研究中忽视的一个挑战。他们提出了两个关键原则来提高学生模型的OOD泛化能力。第一个原则是在模仿教师模型的视觉表示空间的同时,鼓励更好的视觉-语言对齐。第二个原则是丰富教师模型的语言表示,通过详细的语义属性来有效区分不同标签。通过进行一系列实验,研究显示在开放词汇OOD分类任务上,零样本和少样本学生的性能有显著提升,从而强调了他们提出方法的有效性。