Paper201 Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label Classification
这篇论文提出了一种用于多标签零样本学习的新方法,这是计算机视觉中的一个挑战性任务,需要从训练集中识别未见过的标签。传统的视觉-语言预训练(VLP)模型的知识蒸馏方法已被证明是不够的。提出的方法引入了一种基于查询的知识共享范式,以解析来自预训练VLP模型的多模态知识。这种方法使用了标签无关的查询令牌,可以访问并分配输入图像中的关键视觉信息到所有标签,然后选择有用的视觉线索。典型的排名学习被重新定义为分类,以实现特征向量匹配。这种方法通过在NUS-WIDE和Open Images数据集上分别提高mAP 5.9%和4.5%,超越了现有最佳方法。
Paper202 Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding
本研究提出了一种新颖的开放词汇时空视频定位模型,解决了现有视频定位方法中的一个重要局限性。当前方法在开放词汇场景中由于数据和预定义词汇的限制而难以应对,而这款新模型利用基础空间定位模型的预训练表示来弥合自然语言与视觉内容之间的鸿沟。该模型在封闭和开放词汇设置下均优于其他方法,尤其是在VidSTG和HC-STVG数据集上的封闭集评估以及HC-STVG和YouCook-Interactions数据集上的开放词汇评估中表现更为显著。此外,这些代码也将公开可用。
Paper203 Generating Enhanced Negatives for Training Language-Based Object Detectors
抽象的主要贡献是提议使用现代生成模型自动构建与原始数据更相关的负样本,以更好地操作基于语言的开放词汇目标检测。作者尝试使用大型语言模型生成负文本描述,以及使用文本到图像扩散模型生成相应的负图像。实验分析验证了生成的负数据的相关性,并展示了其在提高基于语言检测器在两个复杂基准上的性能方面的有效性。以下是翻译:
主要贡献是提出利用现代生成模型自动构建与原始数据更相关的负样本,以优化基于语言的开放词汇目标检测的操作。作者通过使用大型语言模型来生成负文本描述,以及文本到图像扩散模型来生成相应的负图像进行实验。实验分析证明了生成的负数据的相关性,并显示了它在提升基于语言检测器在两个复杂基准测试中的表现的有效性。
Paper204 TuPy-E: detecting hate speech in Brazilian Portuguese social media with a novel dataset and comprehensive analysis of models
该论文的主要贡献是创建并介绍了TuPy-E,这是用于仇恨言论检测的最大注释葡萄牙语语料库。这个新工具旨在识别葡萄牙语中的仇恨言论,由于葡萄牙语丰富的词汇、复杂的语法和地区变体,这是一个具有挑战性的语言。此外,论文还使用了BERT模型等先进技术进行了详细分析,旨在提高学术理解和实际应用的效能。该项目采用开源方法,旨在鼓励研究社区内的合作。
Paper205 Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation
本文提出了一种利用文本到图像扩散技术进行伪装实例分割的新方法。该方法利用跨领域表示,学习伪装对象的多尺度文本视觉特征。它还包括用于融合这些跨领域特征和支持性组件,以及提取前景对象的相关特征。该方法在几个基准数据集上进行评估,并显示出优于现有技术的性能。作者计划分享他们的代码和预训练模型,以供未来的研究使用。
Paper206 MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining
研究的主要贡献包括介绍了MosaicBERT,这是一种针对快速预训练优化的BERT风格的编码器架构。这个架构融入了几个先进元素,如FlashAttention、ALiBi、GLU和一个用于消除填充标记的模块。它还将低精度LayerNorm集成到标准的变压器编码器块中。训练配方结合了30%的遮蔽比例用于MLM目标,bfloat16精度和为GPU吞吐量优化的词汇量,同时结合了RoBERTa和其他编码器模型的最佳实践。MosaicBERT被发现能够在与标准BERT模型相比保持高准确度的情况下,提供高效的预训练、更快的性能和成本效益。该模型的代码和权重已经开源,供研究社区进一步开发和使用。以下是翻译:
主要研究贡献包括推出了MosaicBERT,这是一种针对快速预训练优化的BERT型编码器架构。该架构融合了诸如FlashAttention、ALiBi、GLU以及一个用于移除填充符的模块等先进元素。同时,它还把低精度LayerNorm整合到了标准的变压器编码器块中。训练配方包括为MLM目标设置的30%遮蔽率、bfloat16精度以及为GPU吞吐量优化的词汇大小,并结合了RoBERTa等其他编码器模型的最佳实践。MosaicBERT在保持与标准BERT模型相同的高准确度下,展现出高效预训练、更快性能和成本效益。模型的代码和权重已经开源,供研究社区进一步发展和使用。
Paper207 LangSplat: 3D Language Gaussian Splatting
文章介绍了LangSplat,这是一种构建3D语言场的新模型,它提高了在3D空间内进行开放词汇查询的效率和精度。LangSplat使用一组3D高斯分布来编码从CLIP中提取的语言特征,而不是将CLIP语言嵌入在NeRF模型中。这是通过使用基于图块的溅射技术实现的,从而绕过了NeRF固有的耗时的渲染过程。为了减轻内存需求,在学习特定场景潜在空间的语言特征之前,先训练一个场景级的语言自动编码器。此外,LangSplat使用SAM来学习层次语义,从而消除了在不同尺度上进行广泛字段查询的需求。这个模型显著优于之前的最先进技术LERF,在1440x1080的分辨率下,速度提高了199倍。
Paper208 Recursive Distillation for Open-Set Distributed Robot Localization
这篇论文提出了一种针对开放世界分布式机器人系统的独特训练方案,在这个方案中,一个“学生”机器人可以在陌生的地方向遇到的“教师”机器人寻求指导。然后,学生机器人会从教师机器人的模型中构建一个伪训练数据集,以进行持续学习。与通常的知识传递方法不同,这种方法对教师模型的假设最少,使其能够应对各种开放集合类型的教师。研究为这个用例探索了一种排名函数模型,包括一个具有挑战性的无数据递归蒸馏场景。经过训练的学生机器人可以递归地加入到下一代的开放教师集合中。
Paper209 Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine
本文介绍了一种名为MultiRankIt的新型系统,用于人在回路场景中,向家庭服务机器人发出指令以取回物体。该系统使用跨模态名词短语编码器和跨模态区域特征编码器来映射短语、图像和对象之间的关系,以理解用户指令。研究人员还创建了一个测试数据集,包括真实的室内环境图像和复杂的指令。在测试过程中,MultiRankIt模型在关键指标上优于其他方法,并且在物理实验中,物体取回的成功率达到了80%。该模型的代码已公开可用。
Paper210 Open-Vocabulary Video Relation Extraction
这项研究介绍了一种新的视频动作理解方法,该方法关注动作与物体的交互以及参与者之间的关系,称为开放式词汇视频关系提取(OVRE)。这种方法通过以动作为中心的关系三元组用自然语言描述动作。研究人员创建了一个名为Moments-OVRE的数据集,其中包含来自多标签动作分类数据集的18万个视频。这一新任务预期开发了一种跨模态映射模型,旨在按顺序生成关系三元组。随后,为现有的跨模态生成模型在OVRE新任务上建立了一个基准。
Paper211 GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection
该研究的主要贡献是提出了GroundVLP,一种用于视觉定位的零样本方法。GroundVLP旨在利用现有的在图像文本对和目标检测数据上训练的模型来获得视觉定位能力。它使用了一种融合机制,结合了GradCAM的热图和开放词汇检测器的目标提案。这种方法基于轻松获取的数据,已经在RefCOCO/+/g数据集上优于其他零样本方法,并且相较于之前的模型有显著的改进。此外,GroundVLP在Flickr30k数据集上与一些非VLP基础的监督模型相比也具有竞争优势。研究人员已经将GroundVLP的代码公开可用。
Paper212 FM-OV3D: Foundation Model-based Cross-modal Knowledge Blending for Open-Vocabulary 3D Detection
这篇文章介绍了FM-OV3D方法,该方法利用来自不同预训练模型的知识来增强3D检测模型的开放词汇能力,使它们能够避免原始3D数据集的限制。它使用Grounded-Segment-Anything模型进行开放词汇3D定位,并使用GPT-3、Stable Diffusion模型和CLIP进行开放词汇3D识别能力。这种方法使得2D视觉语言模型的知识更好地转移到3D空间。在两个开放词汇3D目标检测基准上的实验结果展示了卓越的性能。代码已经公开分享,以供进一步研究和使用。
Paper213 DVIS++: Improved Decoupled Framework for Universal Video Segmentation
摘要介绍了分解视频分割(DVIS)框架,这是一种新的通用视频分割任务方法,适用于视频实例分割(VIS)、视频语义分割(VSS)和视频全景分割(VPS)。与之前的方法不同,DVIS将任务分解为三个子任务:分割、跟踪和细化。该模型引入了两个新组件,一个是指示跟踪器和一个时间细化器,用于对象跟踪和建模时空表示。一种去噪训练技术和对比学习已被整合到创建一个先进的框架,即DVIS++。这个框架还用于开放词汇和预训练骨干场景。此外,与CLIP集成后,它创建了OV-DVIS++,这是第一个开放词汇的通用视频分割框架。在六个基准测试中,其表现优于现有方法,包括在封闭和开放词汇设置下的VIS、VSS和VPS数据集。
Paper214 SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing
本工作的主要贡献是创建了SkyScript,这是一个针对遥感图像的全面视觉-语言数据集,以及在此数据集基础上开发的VLM(视觉语言模型)。作者指出,缺乏大规模、语义多样的遥感图像-文本数据集,这限制了先进VLM在这一领域的应用。为了构建SkyScript,他们使用地理坐标将开放的遥感图像与OpenStreetMap中的文本数据相连接。这个新数据集包含260万图像-文本对,涵盖29K个独特的语义标签。使用SkyScript进行持续预训练,他们的VLM在零样本场景分类的平均准确率上比基线模型提高了6.2%,并且还展示了在细粒度对象属性分类和跨模态检索方面的迁移能力。因此,SkyScript可能有助于开发用于遥感领域各种多模态任务的VLMs。
Paper215 TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP Without Training
该研究通过提出一个从局部到全局的图像标签生成框架,改进了对比语言-图像预训练(CLIP)的多标签分类性能。该框架包括斑块级别的分类、一个双重掩码注意力精炼模块以及一个类别重新识别模块。这种方法不需要特定数据集的训练,并在各种基准测试上显著提高了CLIP的性能。研究者还将生成标签的应用扩展到一个下游任务——弱监督语义分割——其结果显著优于其他无需注释的分割方法。所提出的方法创建了图像级别的伪标签,证明了生成标签的有效性。作者已将代码在线发布供参考。
Paper216 OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using Semantic Understanding in Mixed Reality
这篇文章介绍了一种新颖的开放式词汇方法,用于增强现实中的对象放置,其表现优于现有的仅适用于固定对象集的自动化技术。这个创新性的八阶段流程集成了最近在分割模型、视觉-语言模型和大型语言模型(LLMs)方面的进展,可以将任何虚拟对象放置到任何增强现实摄像头框架或场景中。初步的用户研究表明,这种方法的有效性,在57%的情况下匹配或超过了人类专家的表现。
Paper217 Open Vocabulary Semantic Scene Sketch Understanding
这项研究专注于使用草图编码器对抽象的自由手绘场景草图进行机器理解,生成在语义上有所感知的特征空间。该模型通过带有标题的位图草图进行训练,并且不需要像素级别的注释。对视觉变压器编码器的改编,包括预训练的CLIP模型,涉及冻结文本编码器以及调整视觉编码器分支的视觉提示,同时在关键查询中融入价值-价值自注意力块。一个两级的层次网络用于语义解耦,其中第一级提供整体编码,而第二级专注于各个类别。第二级还引入了文本和视觉分支之间的交叉注意力。该方法将零样本CLIP像素准确率提高了37个百分点,在FS-COCO草图数据集上达到了85.5%的准确率。随后的用户研究建议,还需要进一步改进以对齐机器和人对于场景草图的解释。
Paper218 Weakly Supervised Open-Vocabulary Object Detection
文章提出了一种弱监督开放词汇目标检测框架(WSOVOD),在传统的弱监督目标检测(WSOD)方法基础上进行了扩展,提高了检测新概念和使用仅有图像级注释的多样化数据集的能力。作者采用了诸如数据集级别特征自适应、图像级显著目标定位以及区域级视觉-语言对齐等策略。他们开发了一个以定位为导向的弱监督区域提议网络,以及一个与概念文本刻印相匹配的提议-概念同步多实例网络,用于识别目标。WSOVOD的有效性在Pascal VOC和MS COCO数据集的实验中得到证明,与之前的WSOD方法相比,它成为了新的技术水平。此外,WSOVOD在跨数据集和开放词汇学习方面的能力,导致其表现与完全监督的开放词汇目标检测(FSOVOD)相似或更好。
Paper219 CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation
这篇论文介绍了一种名为CLIP-DINOiser的开集语义分割方法,它是原始CLIP模型的改进版。这种新方法融入了从自监督特征中提取的定位先验,以提升CLIP进行密集计算机视觉任务的能力。文章强调,提出的方法无需额外的微调或注释,同时保留了CLIP原始的开集词汇属性。这一改进使得CLIP-DINOiser能够生成平滑的输出,并在具有挑战性的基准测试中取得最先进的结果。有趣的是,它展示了自监督特征属性可以直接从CLIP特征中学习得到,并且只需要CLIP的一次前向传播和两个轻量级卷积层,无需额外的监督或推理时的额外内存。用于复现结果的代码是公开可用的。
Paper220 Context Disentangling and Prototype Inheriting for Robust Visual Grounding
这篇文章介绍了一种新的框架,用于增强视觉定位(VG)——即根据语言查询在图像中定位特定目标的任务。该框架利用了上下文解耦和原型继承,提高了系统区分参照物和上下文特征的能力,并有效地利用了观察数据的视觉特征。系统将解耦的语言和视觉原型特征融合后,输入到视觉Transformer编码器中,以实现边界框回归。研究人员通过将其在标准和开放词汇场景中的表现与现有最佳方法进行比较,验证了该框架的效率,并取得了卓越的结果。该框架的代码已在GitHub上公开提供。
Paper221 Learning Object State Changes in Videos: An Open-World Perspective
摘要的主要贡献包括引入了一种新颖的开放世界公式来理解视频中的对象状态变化(OSCs),这对于视频理解至关重要。这种方法称为VidOSC,它结合了文本和视觉-语言模型,消除了手动标记OSC训练数据的需要,并利用对象共享的状态表示来提高泛化能力。研究人员还介绍了HowToChange,这是首个用于视频OSC定位的开放世界基准,与现有基准相比,它显著扩展了标签空间和注释量。该方法在传统的封闭世界和开放世界场景中都显示出有希望的结果。
Paper222 SAI3D: Segment Any Instance in 3D Scenes
文章介绍了一种名为SAI3D的零样本3D实例分割方法,该方法利用几何先验和来自Segment Anything Model(SAM)的语义线索。所提出的模型将3D场景划分为几何基元,然后逐渐将这些基元与多视角SAM掩膜一致地合并为3D实例分割。此外,它还引入了一种具有动态阈值机制的层次区域生长算法,以提高3D场景解析的准确性。在ScanNet、Matterport3D和ScanNet++数据集上的表现显示,它优于现有的开放词汇基线,甚至在ScanNet++上的类不可知分割方面超过了完全监督的方法。
Paper223 CLIM: Contrastive Language-Image Mosaic for Region Representation
这篇论文介绍了一种新的改善对象检测中视觉-语言对齐的方法,称为对比语言-图像马赛克(CLIM)。该方法使用大规模的图像-文本对来对齐区域和文本表示,克服了高成本框注的挑战。CLIM将多张图像合并成一张单一的镶嵌图像,并将每个单独的图像视为一个“伪区域”。使用对比损失来训练模型,确保每个伪区域的特点与其相关的文本嵌入紧密对齐,而不是与其他的。这使得在没有昂贵框注的情况下对齐区域-文本成为可能。这种方法始终能够提升开放词汇对象检测方法的性能,并可以改善视觉-语言模型中的区域表示,从而有利于开放词汇对象检测器。实验结果显示,在OV-COCO和OV-LVIS基准测试上,基线检测器有了显著的改进。作者已提供其代码供公众访问。
Paper224 Data Contamination Issues in Brain-to-Text Decoding
本文的主要贡献是对当前用于脑-机接口中将认知信号解码为自然语言的 数据集分割方法进行了系统分析。作者发现数据污染常常会夸大模型的性能。他们发现,测试对象的认知信号泄露可能会损害健壮编码器的训练,而文本刺激的泄露可能导致自回归解码器记住测试集中的信息。论文提出了一种针对不同类型认知数据集(包括fMRI和EEG)的新分割方法,以减少数据污染,并公正评估不同模型的一般化能力。他们还在这种新的数据集分割范式下测试了现有脑到文本解码模型的性能,为未来的研究提供了基线。
Paper225 Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance
文章介绍了Open3DIS,这是一种针对3D场景内开放词汇实例分割的新解决方案。它通过开发一个新的模块来处理识别形状、尺寸和颜色各异的物体的问题,该模块能够跨帧聚合2D实例掩模并将它们映射到几何上连贯的点云区域。这有效地处理了识别小且几何上模糊物体的局限性。该系统与3D类不可知实例提案相结合,以适应现实世界设置中的广泛物体。这些方法在三个公认的数据集上进行测试,结果显示在跨多种类别的物体分割方面,其性能优于现有的最先进技术。
Paper226 Simple Image-level Classification Improves Open-vocabulary Object Detection
文章介绍了一种名为简单图像级分类用于上下文感知检测评分(SIC-CADS)的新方法,用于开放词汇目标检测(OVOD)。传统的OVOD方法将图像级视觉-语言模型(VLMs)适应于区域级目标检测,但在检测新颖/基础类别中的困难目标时存在困难。SIC-CADS通过采用一个多模态多标签识别(MLR)模块来克服这一局限,该模块利用CLIP的上下文信息来识别场景中所有可能的目标类别。然后,这些图像级的MLR分数可以细化当前OVOD模型的实例级检测分数,以提高目标检测效果。在各种基准测试中,将SIC-CADS与不同的OVOD模型集成时,展示了显著的改进,同时在Objects365和OpenImages上提高了跨数据集的泛化能力。
Paper227 U2-KWS: Unified Two-pass Open-vocabulary Keyword Spotting with Keyword Bias
这篇文章介绍了一种新的开词汇关键词识别(KWS)方法,称为统一两通道开词汇关键词识别(U2-KWS)框架。该方法通过使用两步过程来改进声学模型,首先利用CTC分支检测潜在的关键词候选,然后使用解码器分支来验证这些候选。U2-KWS框架被重新设计,通过音频和文本交叉注意力向两个分支添加关键词信息。在内部数据集和Aishell-1上的实验结果表明,与传统KWS系统相比,唤醒率相对提高了41%。
Paper228 WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary Knowledge
本文的主要贡献包括创建了WAVER,这是一个跨领域的知识蒸馏框架,旨在解决在文本-视频检索中的视频描述中写作风格变化的问题。WAVER利用了在预训练的视觉-语言模型中发现的开放词汇属性,并采用隐式知识蒸馏将基于文本的模型的知识转移到基于视觉的模型。通过多项实证研究,研究者们能够证明WAVER在处理写作风格变化的同时,在文本-视频检索任务中具有出色的表现,使其成为该领域的一个突破性发明。此外,研究者们还公开了WAVER的代码。
Paper229 Deep Representation Learning for Open Vocabulary Electroencephalography-to-Text Decoding
这项研究通过使用预先训练的语言模型,改进了非侵入式脑-计算机接口中开放词汇EEG信号的解码,采用端到端的深度学习架构。介绍了三个主要贡献:一是用于解码的深度学习架构,包括一个依赖主体的学习模块、一个BART语言模型和一个GPT-4句子优化模块;二是基于BERTScore的更有效的句子级别评估指标;三是消融研究,为未来的研究提供了宝贵的见解。该模型在两个公开可用的数据集ZuCo v1.0和v2.0上进行测试,并以更高的BLEU-1、ROUGE-1-F和BERTScore-F分数超过了之前的模型。
Paper230 OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments
本文提出了一种OccNeRF方法,用于训练无3D监督的占有网络。它不同于之前的方法,因为它重新格式化重建的占有场并调整采样策略,以符合相机的无限感知范围。该方法还使用神经渲染将占有场转换为多摄像头深度图,并使用多帧光度一致性进行监督。特别是对于语义占有预测,已经设计了几种策略来优化提示并过滤预训练的2D分割模型的输出。通过对nuScenes和SemanticKITTI数据集进行大量自我监督深度估计和3D占有预测任务的测试,证明了这种方法的有效性。
Paper231 OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers
本文介绍了一种名为OMG的框架,它能够根据零样本开放词汇文本提示生成动作。作者将预训练-微调范式应用到文本到动作生成的过程中。在预训练阶段,模型使用一个大型无条件扩散模型从超过2000万个动作实例中学习动作特征。在微调阶段,引入了一种名为动作控制网(Motion ControlNet)的新系统,它使用文本提示作为条件信息。该系统包括一个混合控制器(MoC)块,它识别不同范围的子动作并将它们分开处理。总体而言,与现有方法相比,OMG系统显著提高了零样本文本到动作生成的性能。
Paper232 OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection
这篇论文介绍了OpenSight,一个基于激光雷达的开集词汇检测的2D-3D建模框架。OpenSight在对手头对象进行语义解释之前,使用2D-3D几何先验进行对象的初始识别和定位。该过程包括从与激光雷达系统相连的相机的输出中生成2D框,然后将这些框移动回激光雷达空间以估计相应的3D框。该系统考虑了时间和空间约束,也可以提高对象感知。通过跨模态对齐和融合模块实现特定语义信息的解读,该模块将3D特征与2D图像嵌入对齐,然后融合调整后的3D-2D特征以提供语义解码。实验表明,OpenSight在已建立的3D检测基准上的开集词汇性能测试中取得了先进的结果。
Paper233 Exploration of visual prompt in Grounded pre-trained open-set detection
这篇文章介绍了一种新的视觉提示方法,该方法提高了预训练的开集目标检测模型对新型类别的泛化能力。该方法从少量标记图像中学习新类别的知识,使其能够更好地表示新类别。该方法还使用了一种基于统计的提示构建模块,不受预定义词汇长度的限制,从而允许在类别表示中使用更多的向量。此外,还利用了特定任务的相似性字典,使视觉提示更具辨别力。该方法已在ODinW数据集上进行了测试,结果显示其性能和一致性优于现有方法。
Paper234 SKDF: A Simple Knowledge Distillation Framework for Distilling Open-Vocabulary Knowledge to Open-world Object Detector
本文提出了一种方法,通过将VLM模型的开世界知识提炼到一个与语言无关的检测器中,来优化OWOD任务的VLM模型。作者发现,将知识提炼与自动伪标签机制相结合可以提供卓越的未知对象检测能力,即使在数据有限的情况下也是如此。然而,这种提炼过程可能会对传统检测器的学习能力产生负面影响。为了缓解这一问题,作者引入了降权损失函数和级联解耦解码结构。这些技术有助于减轻开世界知识提炼的影响,并平衡定位和识别的学习。最后,作者提出了两个用于评估开世界检测器的新基准:“StandardSet”和“IntensiveSet”。这些基准允许这些检测器进行更复杂的测试场景。实验证明了这些方法的有效性,代码和数据集可以免费获取。
Paper235 CLIP-guided Federated Learning on Heterogeneous and Long-Tailed Data
本文提出了CLIP引导的联邦学习(CLIP2FL)方法,通过融入对比语言-图像预训练(CLIP)模型来改进联邦学习。该方法旨在应对联邦学习中的用户异质性和类别分布不平衡等挑战。预训练的CLIP模型的知识被传递到客户端-服务器模型中,通过知识蒸馏增强客户端的特征表示。此外,为了在服务器端缓解上述困难,本文引入了一种原型对比学习,该学习由CLIP的文本编码器监督。这产生了基于客户端梯度的联邦特征,随后用于重新训练一个平衡的服务器分类器。
Paper236 UniTeam: Open Vocabulary Mobile Manipulation Challenge
这份报告介绍了一个名为UniTeam agent的改进基线,用于“HomeRobot:开放词汇移动操作”挑战。研究对现有基线代理进行了深入评估,识别并改进了在对象感知、导航和操作方面的不足。显著的改进包括最小化感知中的误分类、防止导航中的无限循环以及修复在拾取过程中与对象可见性变化相关的故障。放置过程也得到了增强,以确保精确定位,成功放置对象。
Paper237 See, Say, and Segment: Teaching LMMs to Overcome False Premises
研究提出了一个用于大型多模态模型(LMMs)的级联和联合训练方法,以增强它们检测图像中是否含有物体、与人类互动以及执行图像分割的能力,同时避免遗忘之前的功能性。他们引入了一个新的虚假前提纠正基准数据集,称为FP-RefCOCO(+/g),这是对现有RefCOCO(+/g)数据集的增强。结果显示,新模型在检测虚假前提方面比之前的模型性能提高了55%,在虚假前提条件下相对cIOU提高了31%,并且67%的情况下提供了有益的自然语言反馈。
Paper238 Foundation Models in Robotics: Applications, Challenges, and the Future
这项调查研究了预训练基础模型在机器人领域的应用情况,因为这些模型通常具有卓越的泛化能力,有时甚至能找到零样本解决方案。本文深入探讨了基础模型如何提升机器人自主性的不同方面,其中值得注意的例子包括大型语言模型提供常识推理和代码生成,以及视觉-语言模型支持开放词汇视觉识别。调查还指出了这些模型更广泛使用所面临的挑战,如相关数据的缺乏、安全问题以及对实时操作的需求。文章分析了通过这些模型在机器人自主性方面的感知、决策和控制方面的进展。该项目还有一个相关的GitHub项目,他们承诺将持续优化和更新,以保持质量和相关性。
Paper239 CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor
这项研究提出了一种新颖的循环框架,用于开放词汇图像分割。主要贡献包括开发了一个新系统,该系统能够过滤无关文本并提高掩膜质量,且无需额外训练。该框架是一个基于冻结视觉语言模型(VLM)的两阶段分割器,它保持了VLM广泛的词汇空间并提高了其分割能力。与无需训练的同类产品以及那些经过数百万数据样本微调的方法相比,该方法展现了卓越的性能。它为零样本语义分割和指代分割设定了新的最先进记录,在Pascal VOC、COCO Object和Pascal Context数据集上显著提高了当前记录。
Paper240 Daily Assistive View Control Learning of Low-Cost Low-Rigidity Robot via Large-Scale Vision-Language Model
这项研究专注于开发一种低成本的日常辅助机器人,该机器人能够根据语言指令控制自己的视觉,完成各种任务,如记录用户的脸部、手部或屏幕,以及捕捉远程图像。该机器人是通过将大规模的视觉-语言模型与机械臂相结合而创建的。机器人物理运动与视觉信息之间的关系是通过神经网络学习的,并通过可学习的网络输入变量为环境因素和时间因素的变化提供支持。通过实际机械臂MyCobot的开集词汇视图控制测试,证实了该机器人的有效性。
Paper241 ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for Open-Vocabulary Object Detection
这项研究介绍了一种实现开放词汇目标检测(OVOD)的新方法——能够识别训练数据中不存在的对象。该技术通过合成基础类别之间的混合产生的代理新类别,增强了在新型类别上的泛化能力。研究人员发现,许多新型类别位于CLIP嵌入空间中由基础类别创建的凸包内。通过用这些合成的代理新类别训练检测器,他们能够有效地探索新类别的嵌入空间。他们的方法在OVOD基准测试中的新型类别上展示了增强的性能,超过了其他领先方法。这个项目的代码可在网上获取。
Paper242 Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
这篇论文介绍了一种无监督的方法,用于在遥感图像上训练视觉-语言模型,从而无需文本注释。这个过程利用互联网图像作为辅助工具,将语言与遥感图像联系起来。模型通过将遥感图像编码器与CLIP的编码器同步,使用配对的互联网和卫星图像进行训练。因此,创建了首个大规模的遥感图像视觉语言模型,能够以两种不同的分辨率运行。这些模型在零样本、开放词汇的卫星图像分类、检索、分割和视觉问答方面表现出卓越的功能。其表现显著超过了现有的监督源模型,在分类任务上提高了高达20%,在分割任务上提高了高达80%。
Paper243 Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks
文章介绍了一种在机器人和人工智能领域,使用大型语言模型(LLMs)对部分可观测任务进行交互式规划的方法。所提出的技术包括使用LLM从环境中收集缺失信息,从观测数据中推断出潜在的问题状态,并指导机器人执行必要的动作。作者还微调了一个LLM,具体是Llama 2模型,并将其性能与像GPT-4这样的预训练模型进行了比较。他们在模拟环境和真实世界的各种任务中测试了这种方法,结果证明了其有效性。
Paper244 AM-RADIO: Agglomerative Vision Foundation Model – Reduce All Domains Into One
该研究提出了一种名为AM-RADIO的新方法,通过多教师蒸馏统一了一系列视觉基础模型(VFMs)。这种整合融合了CLIP、DINOv2和SAM等模型的独特特性,为各种下游任务提供了卓越的性能。研究人员还引入了一种名为E-RADIO的新架构,其性能优于之前的模型,并且至少快7倍。评估在多个下游任务上进行,包括ImageNet分类、COCO目标检测、ADE20k语义分割和LLaVa-1.5框架。
Paper245 OpenSD: Unified Open-Vocabulary Segmentation and Detection
文章介绍了一种名为OpenSD的新型通用变压器框架,用于处理开放词汇分割和检测任务。本工作主要贡献包括一种新的解码器分离学习策略,以减少不同任务之间的语义冲突,使它们既能更有效也能更高效。此外,作者开发了双重分类器,以更好地利用CLIP处理词汇内和词汇外领域,并通过分离提示学习使文本编码器具有区域感知能力。这有助于过滤掉重复和低质量的预测,从而提高端到端的分割和检测。实验结果表明,与现有的开放词汇分割和检测方法相比,OpenSD在封闭和开放词汇设置下都表现出卓越的性能。作者还提供了他们工作的代码。
Paper246 AnyHome: Open-Vocabulary Generation of Structured and Textured 3D Homes
文章介绍了AnyHome,这是一个受认知理论启发的框架,能够将任何文本翻译成结构良好、纹理丰富的室内场景,规模可达整个房屋。通过使用大型语言模型(LLMs)和指定的模板,这个过程将文本叙述转换成结构化的表示,以实现一致和现实的空间布局。AnyHome在适应性、可定制性、多样性和真实性方面表现出色。此外,与现有的其他方法相比,它在生成复杂几何形状和纹理方面显著展示了卓越的能力。另外,AnyHome还提供了在各个细节层次上进行场景编辑的显著潜力。
Paper247 Auto-Vocabulary Semantic Segmentation
本文提出了一种新的方法,称为自动词汇语义分割(AVS),该方法通过自动识别分割所需的对象类别,消除了对用户定义类别的需求,从而改进了开放式的图像理解任务。它使用一个名为“\ours”的框架,该框架利用增强的BLIP嵌入来识别分割的类别名称。考虑到开放式任务的变异性,它还引入了基于大型语言模型的自动词汇评估器(LAVE),用于评估自动生成的类别名称及其相应的图像段。该方法在几个数据集上设置了新的性能基准,并为需要指定类别名称的现有方法提供了强大的竞争。
Paper248 Text as Image: Learning Transferable Adapter for Multi-Label Classification
这篇文章提出了一种新颖的方法,用于改善预训练的视觉-语言模型在多标签图像分类任务中的功能,这是一个已知它们难以应对的任务。作者采用了一种简单的技术,称为随机扰动,在训练过程中用噪声干扰文本嵌入,从而增强了模型的跨模态迁移能力。他们还提出了一种新的方法,利用大型语言模型生成多标签遵循指令的文本。最终产品是一个自主的视觉标签识别管道,不需要任何手动数据。实验表明,这种方法在多项多标签分类任务中优于其他方法。
Paper249 Open-Vocabulary Segmentation with Semantic-Assisted Calibration
文章提出了一种新的方法——语义辅助校准网络(SCAN),通过使用CLIP的广义先验上下文来校准词汇内和领域偏差的嵌入空间,从而提高开放词汇分割(OVS)的性能。SCAN采用了一种上下文转移策略,以解决全局上下文缺乏和背景噪声不自然的问题,并使用CLIP的广义语义先验来防止在已知类别上崩溃。它在流行的基准测试中优于其他OVS方法。此外,文章还引入了一种新的评估指标——语义引导的IoU(SG-IoU),以解决现有评估系统中类别间语义重复的问题。
Paper250 SYNC-CLIP: Synthetic Data Make CLIP Generalize Better in Data-Limited Scenarios
这篇研究文章提出了SYNC-CLIP,这是一种新颖的方法,旨在提高像CLIP这样的视觉-语言模型(VLMs)在开放词汇场景下对新颖类别的泛化能力。通过将真实样本和合成样本视为不同的领域,SYNC-CLIP利用合成数据不仅捕捉领域特定信息,而且保持这些不同领域之间的语义一致性。该方法对跨领域特征进行对齐,使合成数据能够隐式调整决策边界。SYNC-CLIP的有效性通过在三个模型泛化任务上的各种基准测试中展现出的竞争性性能得以证明。特别是,它超过了目前领先的方法PromptSRC,在11个数据集上的新颖类别平均提高了3.0%。
Paper251 Mitigating Open-Vocabulary Caption Hallucinations
本研究的主要贡献有两方面。首先,提出了一种新的框架,用于解决开放词汇设定下图像字幕中的幻觉(虚假细节)问题。这包括一个新的基准测试OpenCHAIR,它使用生成式基础模型来评估开放词汇对象幻觉,在多样性和准确性上超过了CHAIR基准。其次,研究人员介绍了MOCHa,这是一种强化学习方法,旨在解决不需要封闭对象列表的幻觉问题。这种方法开发了一个奖励函数,在不需要强监督的情况下,在生成的忠实度和充分性之间进行平衡。该方法在多个图像字幕模型上显示了改进,由OpenCHAIR基准和其他指标进行测量。研究将会公开他们的代码和模型。
Paper252 Boosting Segment Anything Model Towards Open-Vocabulary Learning
文章介绍了一个名为Sambor的框架,它将现有的Segment Anything Model(SAM)与一个开放词汇目标检测器相结合。该模型通过能够根据人类输入检测任意对象,弥补了SAM在理解对象语义方面的局限性。作者还引入了SideFormer模块,它从SAM中提取特征,以促进零样本对象定位,并为开放词汇识别添加语义信息。还开发了一个开放集区域提议网络(Open-set RPN),以增强检测器捕获由SAM生成的开放集提议的能力。Sambor在零样本性能方面已证明优于之前的基准。作者旨在通过视觉基础模型的帮助,提高SAM识别各种对象类别的能力,并增强开放词汇学习。
Paper253 PartSLIP++: Enhancing Low-Shot 3D Part Segmentation via Multi-View Instance Segmentation and Maximum Likelihood Estimation
文章介绍了一种名为PartSLIP++的改进版PartSLIP,这是一种用于开放世界3D部件分割的方法。与前辈不同,PartSLIP++使用一个预训练的2D分割模型SAM来生成更精确的2D分割,并引入了一种新颖的改进期望最大化算法来替代之前的启发式3D转换过程。这个新算法将3D实例分割视为未观测到的潜在变量,通过2D-3D匹配和优化过程迭代地精炼它们。广泛的评估确认PartSLIP++在低样本3D语义和基于实例的物体部件分割任务中优于PartSLIP。
Paper254 Generating Action-conditioned Prompts for Open-vocabulary Video Action Recognition
这篇论文提出了一种开放词汇视频动作识别方法,该方法通过文本嵌入利用人类先验知识。其新颖的方法将视频模型与大型语言模型相结合,开发了“动作条件提示”,这是一种包含用于识别动作特征描述性句子。引入了一种多模态动作知识对齐机制,以连接视频和文本中的概念,提高对新动作的识别。在多个视频基准测试中,该方法设定了新的最先进性能,并展示了卓越的可解释性。
Paper255 Aligning and Prompting Everything All at Once for Universal Visual Perception
作者们引入了一种名为APE的通用视觉感知模型,它能够在图像中一次性执行多种任务,如检测、分割和定位。与传统模型不同,APE有效地管理了跨模态融合,并将孤立区域视为单个实例,有助于弥合不同像素级任务之间的注释差距。APE无需进行特定任务的微调,即可处理具有自然和挑战性特征的大量数据。在超过160个数据集上的测试表明,使用仅一组权重的APE性能与现有最佳模型相当或更好,证明了通用感知模型对于任何对齐和提示任务的可行性。作者们已经将他们的代码和训练好的模型在线公开。
Paper256 Learning Pseudo-Labeler beyond Noun Concepts for Open-Vocabulary Object Detection
这篇论文提出了一种名为“任意概念的伪标签”(Pseudo-Labeling for Arbitrary Concepts,简称PLAC)的开创性方法,用于开放词汇目标检测(Open-Vocabulary Object Detection,简称OVOD)。该方法解决了现有OVOD方法的不足之处,即间接监督和有限的可转移概念。PLAC专注于直接学习任意概念的区域文本对齐,通过学习任意图像到文本的映射对这些概念进行伪标签标注。该方法在标准的OVOD名词概念基准测试上表现出高性能,并且显著提高了任意概念引用表达式理解基准测试的成绩。
Paper257 Grounding Everything: Emerging Localization Properties in Vision-Language Transformers
这篇论文展示了预训练的视觉-语言(VL)模型在没有微调的情况下执行零样本开放词汇对象定位的能力。它引入了地面化一切模块(GEM),该模块将价值-价值注意力概念改编为与自我-自我注意力路径一起使用,这促进了来自同一对象的相似标记组的出现,同时保持了语言空间的对齐。它还通过正则化指导组形成,使模型能够跨数据集和骨干进行泛化。GEM已在各种基准任务和数据集上进行语义分割测试,超过了其他不需要训练的开放词汇定位方法,并在OpenImagesV7大规模分割基准上取得了最先进的结果。
Paper258 SeaLLMs – Large Language Models for Southeast Asia
文章介绍了SeaLLMs,这是一系列专为东南亚语言设计的创新语言模型,旨在解决大型语言模型中的语言偏见问题。基于Llama-2模型,它们通过持续的预训练、扩展词汇和调整对齐,进一步提高了对区域语言的理解。因此,它们能更好地捕捉当地的语言复杂性,尊重文化规范和法律考量。评估结果显示,SeaLLM-13b模型在一系列语言任务和助手式指令遵循方面优于可比的开源模型。值得注意的是,它们在几种非拉丁语言中超过了ChatGPT-3.5,同时具有成本效益和轻量级的特点。
Paper259 Open-vocabulary object 6D pose estimation
这项研究提出了一种新颖的开集词汇对象6D姿态估计方法。感兴趣的对象是使用文本提示进行识别的,推理时无需对象模型,并且它从两个不同场景的RGBD视点进行成像。该方法创造了一种独特的策略,将文本提示给出的对象级信息与局部图像特征相结合,创建了一个可以推广到新概念的特征空间。为了验证这种方法,创建了一个新的基准,该方法在估计不同场景中对象的相对6D姿态方面,优于传统的手工制作方法和一种更近期的基于深度学习的方法。这项工作还提供了代码和一个基于详细评估的新数据集。
Paper260 Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature Aligned Pre-Training and Region-Aware Fine-tuning
本研究提出了一种新的框架,用于有限标签下的3D场景理解。研究者们提出了一种层次特征对齐的预训练和知识蒸馏策略,从大规模视觉-语言模型中提取有意义的信息,以理解训练类别之外的全新类别。此外,还提出了一种具有边界意识的能量损失函数,以最大化利用区域级别的边界信息。研究还引入了一种针对点云的无监督区域级语义对比学习方案,旨在促进潜在实例的区别并保持效率。该框架、模型和数据已在数据高效学习和开放世界少样本学习中被证明有效,目前已公开可用。
Paper261 Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding
这篇文章介绍了一种新的场景表示方法——语言嵌入的3D高斯分布,用于三维空间中的开放词汇查询任务。这种表示方法通过使用独特的量化方案和嵌入过程,而不是直接在3D高斯分布上嵌入高维原始语义特征,从而限制了内存使用并提高了性能。这种方法还允许更平滑、更准确的查询,并解决了基于点的表示中多视图特征不一致性和高频归纳偏差的现有问题。作者报告称,与现有的语言嵌入表示相比,这种新表示在保持独立桌面GPU上的实时渲染帧率的同时,提供了更好的视觉质量和语言查询准确度。
Paper262 Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP Limitations
这篇论文专注于提高智能代理中的主动开放词汇识别。鉴于各种环境中存在大量对象类别,研究人员提出了一种方法,该方法能够学习感知和分类任何类型的对象,而无需对所有类别进行训练。这种方法改进了现有的模型,如CLIP,后者在处理不同视角和遮挡挑战时存在困难。他们引入了一个新的代理,该代理利用帧间和概念间相似性进行更好的识别,而无需特定的类别知识。这个新代理被证明优于基础的CLIP模型,在ShapeNet数据集上,准确率从29.6%提高到了53.3%,且无需进行任何模型微调。他们方法的成功在Habitat模拟器的测试中进一步得到了验证。
Paper263 Language-conditioned Detection Transformer
这篇论文提出了一种新的开放词汇检测框架,名为DECOLA,它使用了图像级标签和详细的检测注释。训练过程分为三个阶段:首先在完全监督的检测数据上训练一个语言条件对象检测器,然后使用检测器用图像级标签对图像进行伪标签,最后在伪注释的图像上训练一个无条件的开放词汇检测器。DECOLA在开放词汇LVIS基准测试以及LVIS、COCO、Object365和OpenImages上的零样本迁移基准测试中表现出强大的零样本性能,超过了之前的方法。它仅通过使用开源数据和学术规模计算,就能与各种模型大小、架构和数据集配合工作。代码可在网上获取。
Paper264 The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding
这篇文章研究了最先进的开放词汇目标检测模型辨别物体细粒度属性的能力。引入了一种评估协议,该协议使用动态词汇生成来测试这些模型即使在面对困难负类时,是否能够准确检测物体的更细微细节。还包括一个基准测试套件,用于测试不同的属性,如颜色、图案和材料。研究表明,虽然这些模型在标准的开放词汇基准测试中表现良好,但它们在准确捕捉和区分物体的更细细节方面存在困难。作者强调了当前方法的局限性,并提出了克服这些缺点的潜在研究方向。他们还提供了数据和代码供进一步使用。
Paper265 Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models
该研究介绍了即插即用开放词汇语义分割(PnP-OVSS)技术,该技术通过采用文本到图像的交叉注意力和图像文本匹配损失,改进了视觉语言模型中的语义分割任务。为了有效地处理过分割和欠分割,作者引入了显著性丢失——一个迭代过程,该过程会丢弃模型主要关注的图像块。高性能的PnP-OVSS不需要任何额外的神经网络训练或带有分割注释的超参数调整。该技术的成功在四个重要的图像处理(VIP)基准测试中得到了显著的改进证明。
Paper266 The curse of language biases in remote sensing VQA: the role of spatial attributes, language diversity, and the need for clear evaluation
该研究通过视觉盲模型、对抗性测试和数据分析的三重分析,探讨了在复杂任务如遥感视觉问答(RSVQA)中存在的语言偏见问题。作者指出,由于地理相似性、稀疏性和遥感数据集中更简单的词汇,这些偏见在遥感中比标准视觉问答更为严重。他们得出结论,不仅需要改进、减少偏见的数据集,还需要更明智、相对的评价指标,以促进未来RSVQA结果的准确和透明沟通。
Paper267 SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation
文章介绍了一种用于开放词汇语义分割任务的简单编码器-解码器(SED)方法。与现有的使用预训练视觉-语言模型的方法不同,所提出的模型采用了一个分层编码器来预测像素级图像-文本代价图,这有效地捕捉了局部空间信息。配合类别早期拒绝方案使用的逐渐融合解码器,加快了推理过程,同时没有牺牲准确度。SED方法的性能通过在ADE20K数据集上以150个类别达到31.6%的mIoU得分得到了体现。此外,与研究相关的代码也将公开可用。
Paper268 Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding
这篇论文介绍了一种新颖的视觉编程方法,用于零样本开放词汇的三维视觉定位(3DVG),并使用大型语言模型(LLMs)。作者通过一种独特的基于对话的方法建立了对零样本3DVG的基础理解。设计了一个视觉程序,由与视图无关、视图相关和功能模块组成,每个模块都针对3D场景进行了定制。此外,还开发了一个新的语言对象关联模块,以扩展现有3D对象检测器在开放词汇场景下的适用性。实验结果表明,这种零样本方法超越了一些监督基线,表明在有效的3DVG方面取得了进展。
Paper269 Solving the Right Problem is Key for Translational NLP: A Case Study in UMLS Vocabulary Insertion
这项工作主要贡献包括:引入了一种新的UMLS词汇插入公式,该公式与实际任务相吻合,开发了相应的数据集,以及通过重新利用现有解决方案获得的几个强基线。研究还提出了一种规则增强的生物医学语言模型,该模型优于已建立的基线,并为执行UMLS词汇插入任务的人员提供了可衡量的定性改进。研究强调了问题公式化对于实际NLP解决方案成功的重要性。
Paper270 Text and Click inputs for unambiguous open vocabulary instance segmentation
这段话的中文翻译如下:
本文的主要贡献包括:提出了一种新的分割方法,称为“文本+点击”方法,该方法以图像、指示要分割的类别的文本短语以及一个前景点击(指定要分割的实例)作为输入。这种方法利用开放词汇的图像文本模型来支持广泛的语言提示,提高了对未见类的分割准确性。单个用户指定的前景点击与文本提示的结合,使得模型能够更好地区分重叠或同时出现的语义类别。该方法在refCOCO、COCO、VOC和OpenImages等流行分割数据集上进行了测试。此外,源代码也已公开提供。
Paper271 SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation
本文介绍了SEGIC,一个用于上下文内分割的端到端“片段在上下文”框架。SEGIC使用视觉基础模型(VFM)来捕捉目标图像与之前标记示例之间的关系,然后利用这些信息创建三种类型的指令——几何指令、视觉指令和元指令。这些指令作为最终掩膜预测的明确条件。SEGIC在一键分割基准测试中优于其他方法,并且可以轻松应用于各种任务,如视频对象分割和开放词汇分割。代码将公开提供。
Paper272 Controlled Text Generation via Language Model Arithmetic
本研究介绍了一种新颖的推理框架,称为模型算术,用于定制大型语言模型(LLMs),无需进行模型(重新)训练或高度特定的数据集。该框架允许精确控制生成的文本,并可以将先前的受控文本生成技术扩展到新的、更有效的表述。作者还证明了推测抽样,一种高效的LLM抽样技术,扩展到他们的模型,使得能够以较小的开销高效地生成多个模型的文本。该技术在毒性降低方面优于现有技术,作者还提供了他们框架的开源实现。
Paper273 GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration
这项研究介绍了一种新流程,用于增强一个名为GPT-4V(ision)的视觉语言模型,以便在机器人操作中进行一次性的视觉教学。该模型分析人类任务视频,并考虑对可行性的洞察,输出可执行的机器人程序。它首先通过分析视频来解释环境和动作细节的文本描述,然后使用基于GPT-4的任务规划器将这些细节编码成符号化的任务计划。随后,视觉系统在视频中将任务计划在空间和时间上进行定位。对象识别使用开放词汇对象检测器,并通过分析手部与物体的交互来识别抓取和释放动作。这个定位过程为机器人执行提供了关键的可行性信息。尽管方法在真实机器人的操作中展示了从人类演示的有效性,但它也揭示了GPT-4V中的一些幻觉实例,强调了在这个流程中需要人类监督的重要性。
Paper274 Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning
本文讨论了CastDet的发展,这是一种面向航空影像的开集词汇目标检测(OVD)框架。这种技术旨在克服目标检测中超出训练数据的挑战,主要是类不可知区域提议和伪标签的质量问题。通过使用RemoteCLIP模型作为具有全面知识教师的在他们学生-教师自我学习机制中,作者改进了目标提议和分类过程。他们还提出了一种动态标签队列策略,用于在批量训练期间保持高质量的伪标签。广泛的试验表明,CastDet表现出卓越的OVD性能,在VisDroneZSD数据集上显著超过了先前的方法。作者声称这是首次尝试将OVD技术专门应用于和发展于航空影像。
Paper275 Open-Vocabulary Camouflaged Object Segmentation
这篇论文的主要贡献是引入了一个新的任务,称为开放词汇伪装对象分割(OVCOS),并创建了一个新的大型复杂场景数据集,名为OVCamo。OVCamo数据集包含了11,483张手工挑选的图像,带有详细的注释和对象类别。作者还提出了一种新的基线,名为OVCoser,它附加到预训练的视觉-语言模型(VLM)CLIP上,并使用迭代语义引导和结构增强来定位伪装对象。这个新系统在OVCamo数据集上优于其他开放词汇语义图像分割模型。作者计划在未来发布代码和数据,以进一步研究开放词汇密集预测任务。
Paper276 Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
这篇论文提出了一种新的场景图生成(SGG)方法,称为OvSGTR,以克服之前只能识别预定义的对象和关系类别的局限性。它引入了基于节点和边标准的四类SGG。所提出的框架OvSGTR采用端到端的变压器架构,学习节点和边的视觉-概念对齐,使模型能够识别之前未见过的类别。该框架还结合了使用图像-标题数据的关系感知预训练,并通过知识蒸馏保持视觉-概念对齐,以实现开放词汇的SGG。通过在Visual Genome基准上进行实验,证明了所提出方法的有效性。
Paper277 Fast Certification of Vision-Language Models Using Incremental Randomized Smoothing
这篇文章介绍了开放词汇认证(OVC),一种快速的认证方法,它提高了如CLIP这样的深度视觉-语言模型对抗性攻击的鲁棒性。这些模型通常容易受到对抗性攻击。OVC利用随机平滑技术来快速认证新的分类器,并通过使用缓存技巧和近似嵌入空间,显著加快了认证过程。所提出方法的有效性通过在CIFAR-10和ImageNet数据集上使用不同的视觉-语言骨干进行了测试。
Paper278 Towards Open-Ended Visual Recognition with Large Language Model
文章介绍了OmniScient模型(OSM),这是一种基于新型大型语言模型的面具分类器,它能够提高开放性物理环境中的对象识别能力。与之前的模型不同,OSM生成类标签,并且在训练或测试过程中不依赖于提供类名。它可以在不需要人工干预的情况下跨多个数据集进行训练,显示出从大型语言模型中获得的世界知识的强大泛化能力。此外,当该模型与现成的面具提议模型结合使用时,在各种基准测试中显示出有希望的结果,表明其在处理新概念方面的有效性。作者已经将模型和代码公开供公众使用。
Paper279 The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language
这个项目展示了一个基于音素的模型,该模型在语音处理中对未见过的语言表现出了强大的跨语言适应性。研究人员汇编了IPAPACK,这是一个庞大的多语种语音数据集,包含超过115种语言的音素转录。利用IPAPACK,他们提出了CLAP-IPA,这是一个用于音素-语音映射的对比嵌入模型,该模型在泛化到95种未见过的语言方面表现出色,特别是在零样本强制对齐方面具有显著能力。还精心设计并测试了一种神经强制对齐器IPA-ALIGNER,证明了它能够在不需要特殊优化的情况下适应未见过的语言。
Paper280 Open-Vocabulary Video Anomaly Detection
本文提出了一个开放词汇视频异常检测(OVVAD)模型,该模型不仅能够检测视频中的异常,还能将它们归类到特定的类别中,包括那些在训练期间未见过的类别。该模型将OVVAD分解为检测和分类两个任务,并共同优化。它引入了一个语义知识注入模块,用于在检测任务中融入来自大型语言模型的知识,以及一个异常合成模块,该模块利用大型视觉生成模型生成伪未见异常视频,用于分类任务。在三个基准测试上的实验表明,该模型在OVVAD任务上的表现优于其他技术。
Paper281 Meta-Adapter: An Online Few-shot Learner for Vision-Language Model
这项研究介绍了一种名为Meta-Adapter的轻量级工具,该工具是为了改进名为CLIP的对比视觉-语言预训练方法而开发的。与现有的基于CLIP的少样本学习方法不同,后者需要离线微调,因此具有更长的推理时间以及过拟合的风险,Meta-Adapter能够以在线方式根据少样本样本来优化CLIP特征。这个新模型在八个图像分类数据集上的平均性能提高了3.6%,并提供更高的推理速度。此外,它不受微调的限制,可以泛化到各种任务,并且可以直接应用于下游任务。Meta-Adapter在开放词汇目标检测和分割任务中也显示出显著的改进。
Paper282 STONYBOOK: A System and Resource for Large-Scale Analysis of Novels
主要贡献包括创建一个全面的资源集合,以促进小说的大规模分析。这包括开发一个开源的自然语言处理(NLP)分析管道,以标准的XML格式注释小说,一个包含超过49,000本清洁和注释过的小说的集合,以及一个带有网页界面的数据库,用于这些作品的汇总分析。研究者们还提供了各种分析工件,如角色互动的可视化、书籍相似度比较、词汇分析、词性统计和可读性指标。此外,他们还强调了注释格式对于大量小说的定性和定量分析的有用性。
Paper283 Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion
这篇论文讨论了开放词汇分割中评估指标的一个问题,即该过程过于依赖封闭集指标,而没有考虑到预测类别与实际类别之间的相似性。为了解决这个问题,作者比较了两种类别词之间的十一种相似性度量,使用了各种语言统计、文本嵌入和语言模型。基于这些度量,他们设计了一套新的评估指标——Open mIoU、Open AP和Open PQ,专门用于开放词汇分割任务。他们将这些指标在三种分割任务的12种开放词汇方法上进行基准测试,并展示了他们的指标能够准确评估开放词汇分割方法的能力。该研究旨在激发评估模型开放能力的新方法,评估代码已在GitHub上公开可用。
Paper284 PhoGPT: Generative Pre-training for Vietnamese
这篇文章介绍了一系列先进的开源生成模型,适用于越南语,包括PhoGPT-4B基础模型及其聊天变体PhoGPT-4B-Chat。基础模型在包含1020亿个令牌的越南语语料库上进行预训练,而聊天变体则在一个由指导性提示、回应和对话组成的数据集上进行微调。这些模型在性能上超过了之前的开源模型。
Paper285 OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D Data
本文介绍了一种独特的方法OVIR-3D,用于三维对象实例检索,无需任何三维数据进行训练。该方法通过使用与文本对齐的二维区域提议网络和多视图融合过程,根据实例特征的相似性和文本查询来识别一组三维对象。该方法的优势在于利用了二维数据集,这些数据集比三维数据集更为广泛和庞大。融合操作高效,适合在大多数室内三维环境中实时使用,且不需要在三维空间中进行补充训练。通过在公共数据集和真实机器人上进行实验,验证了该方法的有效性及其在机器人导航和操作中的潜在应用价值。
Paper286 LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery
LOTUS,一种创新的持续模仿学习模型已被推出,它能使机器人在其生命周期内不断学习并高效地解决各种操纵任务。LOTUS的主要概念之一是创建一个不断扩展的技能库,其中的技能来自于一系列由人类演示指导的新任务。LOTUS的一个主要特点是它的持续技能发现过程,它从未经分割的演示中提取技能,并不断更新以避免忘记之前的任务,同时添加新技能以应对新的工作。LOTUS还包括一个元控制器,它灵活地组合不同的技能,以应对终身学习过程中的基于视觉的操纵任务。实验结果表明,LOTUS的成功率超过现有技术水平基线11%,证明其在知识转移能力方面优于之前的方法。
Paper287 Text Rendering Strategies for Pixel Language Models
这篇论文探讨了在PIXEL模型中渲染文本的不同方法,重点是减少输入表示中的冗余。最有效的方法是简单的字符双词渲染,这种方法在句子级别的任务上提高了性能,而不会影响标记级别或多语言任务。这种优化的渲染策略使得可以训练一个更紧凑的模型,仅包含2200万个参数,与原来的8600万个参数的模型相当。研究人员发现,他们修改后的模型表现出补丁频率偏差,揭示了图像补丁与基于标记化的语言模型之间的联系。
Paper288 ChatGPT-Powered Hierarchical Comparisons for Image Classification
作者提出了一种新的图像分类框架,该框架利用了预训练的视觉-语言模型,如CLIP,并融入了来自大型语言模型(如ChatGPT)的类特定知识。这种方法使用这些模型递归地将类别分组为层次结构,并基于每个层次上的图像-文本嵌入比较来分类图像。提出的方法有望为图像分类中的零样本开放词汇挑战提供一种直观、有效且可解释的解决方案,同时减轻现有模型中发现的偏差。
Paper289 Spuriosity Rankings for Free: A Simple Framework for Last Layer Retraining Based on Object Detection
这篇论文提出了一种新的排序框架,它使用开放词汇目标检测方法来识别没有虚假线索的图像。然后根据这些图像中目标对象的存在对其进行评分。图像被排序后,得分最高的数据被用来重新训练模型的最后一层。这种方法旨在提高深度神经网络模型的可靠性,因为这些模型往往依赖于虚假特征。在ImageNet-1k数据集上的测试表明,它在根据图像的虚假性进行排序以及成功使用这些数据进行最后一层重新训练方面是有效的。
Paper290 Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation
本文介绍了一种弱开放词汇语义分割(WOVSS)的研究,该过程对图像内的对象进行分割。作者针对当前方法中存在的粒度不一致问题,提出了使用原型知识对组标记进行显式监督的方法。为了实现这一点,他们引入了“非可学习原型正则化”(NPR),其中来自源特征的非可学习原型充当监督,指导组标记的对比匹配以减少冗余。在NPR的基础上,他们提出了“原型指导分割网络”(PGSeg),该网络结合了来自图像和文本的原型源的多模态调节,提高了分割能力。研究人员的新方法在基准测试中表现出色。他们研究的源代码可在网上获取。
Paper291 Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting
这篇研究介绍了OpenVik,这是一种开创性的开放视觉知识提取方法。与现有依赖预定义格式或词汇的方法不同,OpenVik使用检测器来识别包含关系知识的区域,并使用视觉知识生成器产生无格式限制的知识。为了进一步丰富知识多样性,作者还利用了两种数据增强技术。实验证明了OpenVik获取知识的准确性和独特性,而且该模型在不同视觉推理应用中的整合显示了一致的改进,这表明了其实际价值。
Paper292 Siamese-DETR for Generic Multi-Object Tracking
这篇论文提出了一种新的通用多目标跟踪(GMOT)方法,称为Siamese-DETR。与现有方法不同,Siamese-DETR不需要昂贵的、预先训练的模型或细粒度的类别注释。相反,它利用广泛使用的检测数据集进行训练,例如COCO。Siamese-DETR做出了几项贡献:它使用与模板图像链接的多尺度对象查询,以高效检测不同尺度对象;引入了一种动态匹配训练策略,以充分利用提供的注释;并通过查询方法简化了跟踪流程,用更简单的非最大值抑制取代了复杂的数据关联。提出的方法在GMOT-40数据集上与其他MOT方法相比,表现出了更优越的性能。
Paper293 RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments
本工作的主要贡献是创建了一个名为推理意图导向对象(RIO)的全面数据集,并评估了现有模型在开放环境中推理意图导向对象的能力。RIO旨在涵盖多种多样的现实世界场景和对象类别。与之前的 数据集不同,RIO中的每个意图都由一个自然句子表示,而不仅仅是一个单词或动词短语,这使得它更加实用和有意义。它还提供了上下文,使与对象相关的潜在功能范围更广。RIO数据集包含40,214张图片和130,585个意图-对象对。
Paper294 LP-OVOD: Open-Vocabulary Object Detection by Linear Probing
这篇文章提出了一种新颖的方法,称为LP-OVOD,用以克服开放词汇目标检测(OVOD)中低质量框的挑战。当前的OVOD方法使用联合文本-图像嵌入,但这种方法很难区分低质量和高质量框。LP-OVOD方法通过在来自顶级相关区域提议的伪标签上训练一个sigmoid线性分类器来丢弃低质量框。实验表明,LP-OVOD方法表现出卓越的性能,使用ResNet50在不使用外部数据集或训练过程中没有新颖类别先验知识的情况下,AP_novel达到了40.5。作者将在线公开他们的代码。
Paper295 CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary Object Detection
这篇文章介绍了一种名为CoDet的新方法,用于从图像-文本对中获取可靠的区域-单词对齐,以进行开放词汇目标检测,克服了现有方法在定位准确度或泛化能力方面的局限性。CoDet不是依赖预先对齐的视觉-语言模型,而是将区域-单词对齐重新定义为共同出现的目标发现问题。通过将提到共享概念字幕的图像分组,CoDet利用视觉相似性将对象与共享概念对齐。CoDet在开放词汇检测的性能和可扩展性方面均优于之前的最先进技术。例如,通过扩大视觉骨干,CoDet在OV-LVIS基准测试上取得了显著的改进。作者还公开了CoDet的代码。
Paper296 Open-NeRF: Towards Open Vocabulary NeRF Decomposition
这篇论文详细描述了一种将神经辐射场(NeRF)分解为开放词汇中的对象的创新解决方案。现有方法在处理开放词汇查询与准确的三维分割之间难以取得平衡。然而,所提出的系统,即开放词汇嵌入式神经辐射场(Open-NeRF),使用了如Segment Anything Model(SAM)这样的大规模分割模型。它引入了一种整合-提炼方法,既获得了查询的灵活性,又保证了三维分割的精确性。这是通过使用现有模型从不同视角生成层次化的二维掩码提议,并将它们整合到三维空间中实现的。实验结果证明了在开放词汇情况下,Open-NeRF相较于之前方法的优势。最终,Open-NeRF推进了NeRF的分解,使得在开放世界三维场景中,如机器人学和视觉-语言交互等新应用成为可能。
Paper297 OV-VG: A Benchmark for Open-Vocabulary Visual Grounding
这项研究专注于开放词汇学习,特别是视觉接地(Visual Grounding),旨在帮助语言模型识别并定位图像中的新概念。它引入了新的任务,即开放词汇视觉接地和开放词汇短语定位,并为研究目的提供了一个大型注释基准。研究人员随后评估了现有方法,发现当前最先进的技术常常失败。因此,他们开发了一个新的框架,该框架整合了文本-图像查询选择和语言引导特征注意力,以改善新类别的识别以及视觉和语言信息的对齐。他们通过大量的实验和消融研究证明了该框架的有效性,并将公开他们的代码和数据集。
Paper298 Multi-label Open-set Audio Classification
该研究确立了多标签开放集音频分类问题,这是一个用于检测重叠和未知声音事件的系统。为了实现这一点,研究人员创建了一个包含各种未知类别分布的数据集,并使用现有方法测试了基线方法。这些技术之前已被应用于多类情境,但尚未在声音事件重叠的多音音频中进行探索。
Paper299 OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D Data
本文介绍了OpenAnnotate3D,这是一个开源、开放词汇的自动标注系统,旨在通过使用大型语言模型(LLMs)和视觉-语言模型(VLMs)来改进多模态3D数据的自动标注。该系统可以为视觉和点云数据自动生成2D掩码、3D掩码和3D边界框标注。这种创新方法在公共数据集和内部数据集上的评估表明,与手动标注相比,它能显著减少工作量,同时提供准确的开放词汇自动标注结果。据作者所知,OpenAnnotate3D是开放词汇、多模态3D自动标注领域的先驱。
Paper300 SILC: Improving Vision Language Pretraining with Self-Distillation
文章介绍了一种名为SILC的新框架,专为视觉语言预训练设计。SILC通过实施自蒸馏来实现局部到全局的对应学习,从而增强了图像-文本对比学习。这种方法显著提高了模型在密集预测任务(如检测和分割)上的性能,并改进了图像级任务,如分类和检索。SILC为零样本分类、少样本分类、图像和文本检索、零样本分割以及开放词汇分割设定了新的基准。SILC对开放词汇检测、字幕生成和视觉问答的积极影响也得到了展示。