Open-vocabulary 论文速览1-100篇(arxiv截止时间2024.6.12）

最新推荐文章于 2025-04-18 17:23:20 发布

木木阳

最新推荐文章于 2025-04-18 17:23:20 发布

阅读量2k

点赞数 20

文章标签：目标检测计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_44287798/article/details/139623754

版权

Paper 小结

Paper1 Open-World Human-Object Interaction Detection via Multi-modal Prompts

这篇论文介绍了MP-HOI，一种基于多模态提示的人-物交互（HOI）检测器，它同时使用文本描述和视觉提示。该系统可以处理高度模糊的交互，并改进了仅使用语言的HOI检测器。为了训练MP-HOI，作者开发了一个大规模的数据集Magic-HOI，该数据集结合了六个现有数据集，包含超过186,000张图片。他们还通过引入一个自动化的管道来解决Magic-HOI数据集中的长尾问题，该管道在名为SynHOI的合成数据集中生成真实标注的HOI图片，包含100,000张图像。MP-HOI系统利用这些数据集来优化HOI任务，将其视为相似性学习过程。该系统展现出显著的零样本能力和学习可迁移的物体/交互表示的能力。它在HOI词汇量上超过了现有模型30倍以上，并在该领域设定了新的性能标准。

Paper2 Beyond Bare Queries: Open-Vocabulary Object Retrieval with 3D Scene Graph

这项研究提出了一种名为BBQ（超越简单查询）的新方法，旨在提高自然语言中提到的对象的定位能力，这对于自主系统来说是一项具有挑战性的任务。与只能处理简单查询的基于CLIP的开阔词汇方法相比，BBQ系统通过使用3D场景空间图表示和一个大型语言模型，能够理解更复杂和模糊的对象描述。它利用DINO驱动的关联来形成3D对象，先进的射线投射算法进行投影，以及一个视觉-语言模型进行描述。在各种数据集上的测试表明，它能够创建准确的三维对象中心地图，并在开阔词汇的三维语义分割方面表现出卓越的性能。BBQ系统还使得信息处理速度比其他方法更快，使其成为智能机器人应用的合适选择。

Paper3 Open-Vocabulary Part-Based Grasping

文章介绍了AnyPart，这是一个为机器人对象部分抓取而设计的实用系统，这对于操纵任务和机器人-人类交互至关重要。该系统融合了开放词汇对象检测、开放词汇部分分割以及6DOF抓取姿态预测，以在800毫秒内确定物体特定部分的抓取姿态。研究还引入了两个新颖的数据集，用于开放词汇基于部分抓取——一个包含1014个对象-部分分割，另一个数据集包含来自机器人试验的真实世界场景。在移动操纵器机器人上进行的一系列360次试验中，涉及28种常见家用物品，AnyPart系统成功抓取的次数为69.52%，而在忽略基于机器人的抓取失败时，它正确预测抓取位置的概率为88.57%。

Paper4 USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation

本文的主要贡献包括引入了通用片段嵌入（USE）框架，用于开放词汇图像分割。这个新框架附带了一个数据管道，用于策划大量片段-文本对，以及一个嵌入模型，该模型能够将图像片段精确分类到广泛的文本定义的类别中。USE模型不仅改进了开放词汇图像分割，还促进了其他任务，如查询和排名。USE框架的有效性通过在语义分割和部分分割基准测试上的研究得到了证明，在这些测试中，它超越了现有方法。

Paper5 OVMR: Open-Vocabulary Recognition with Multi-Modal References

这篇文章介绍了一种新的开放词汇识别方法，称为OVMR，它利用了多模态线索，如文本描述和图像示例。与其他技术不同，这些技术要么需要耗时的微调并牺牲泛化能力，要么使用模糊的文本描述，OVMR使用了一个多模态分类器结合基于偏好的细化模块。这种方法解决了低质量示例图像或文本描述的问题，并增强了类别线索的嵌入。OVMR是一个即插即用的模块，与互联网来源的示例图像配合使用效果良好。实验结果表明，OVMR在多种情景下优于现有方法。代码在网上公开可访问。

Paper6 FusionBench: A Comprehensive Benchmark of Deep Model Fusion

作者介绍了FusionBench，这是第一个专门为深度模型融合设计的全面基准测试。该基准测试包含了一系列广泛的任务——图像分类、文本分类、文本到文本生成等，每个类别中都包含了多种不同大小和微调策略的任务特定模型。通过FusionBench，各种多任务模型融合技术在各种任务上得到了评估。该平台包含26个不同的任务、74个微调模型和16种融合技术，并且计划持续扩展。为了方便研究者，作者还提供了详尽的资源和指南。

Paper7 Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation

本文介绍了Open-YOLO 3D，这是一种快速且准确的开集词汇3D实例分割方法。该方法避免了传统计算昂贵的2D基础模型的使用，仅通过利用多视角RGB图像的2D目标检测。方法包括生成类无关的3D对象掩码并将其与文本提示相关联。研究表明，使用2D目标检测器在匹配文本提示与3D掩码时可以更快地实现更好的性能，从而减少了推理时间。在ScanNet200和Replica数据集上的测试表明，Open-YOLO 3D具有最先进的性能，速度比现有方法快16倍。此外，代码和模型已公开提供。

Paper8 OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding

本文介绍了OpenGaussian，一种使用3D高斯分布渲染（3DGS）进行3D点级别理解的方法。该方法解决了现有基于3DGS的开集词汇方法中特征表达性弱和不准确的2D-3D特征关联问题。主要贡献包括使用SAM掩模对实例特征进行3D一致性训练，实现了对象内一致性以及对不同对象之间的区分。提出了一种两阶段代码本，用于将这些特征从粗略层面到精细层面进行离散化，考虑了3D点的位置信息进行基于位置的聚类。此外，还引入了实例级别的3D-2D特征关联，将3D点与关联的2D掩模以及2D CLIP特征相连接。所提出的方法通过各种实验证明了其有效性，包括基于开集词汇的3D对象选择和3D点云理解等。

Paper9 FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping

文章介绍了一种名为FastLGS的新方法，用于实现高质量、高效且零样本的语义交互式辐射场。FastLGS能够在3D高斯溅射（3DGS）中以高分辨率实现实时、开放词汇查询。该方法利用了语义特征网格，并保存了用Segment Anything Model（SAM）掩模提取的多视角CLIP特征。然后，这些特征被映射到低维特征，通过3DGS进行语义场训练。一旦训练完成，FastLGS能够从渲染特征中恢复像素对齐的CLIP嵌入，以进行开放词汇查询。与其他最先进的方法相比，FastLGS更快且更准确。它还兼容许多下游任务，如3D分割和3D物体修复，使其对其他3D操作系统非常有用。

Paper10 ELSA: Evaluating Localization of Social Activities in Urban Streets

该研究论文提出了一个新的基准数据集，名为“评估社交活动定位”（ELSA），以更好地理解为什么一些城市街道比其他街道吸引更多的社交活动。这个数据集的独特之处在于，它使用了“自然环境”的街道级别图像，而不是受控环境，并提供了多种带注释的图像，包含超过4300个多标签边界框，用于个人和群体活动。这些图像被组织成三种主要的活动群组：条件、状态和行动，并包括许多子类别。这种开放词汇检测模型和计算机视觉的新颖应用为这个问题提供了全面的视角。研究团队已将ELSA公开，以供进一步研究和研究使用。

Paper11 EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding

该研究引入了一种新颖的无监督跨视角自适应学习方法，以更好地模拟在不同摄像头视角下的语义场景理解中的几何结构变化。三个主要贡献包括：在未配对数据上引入了一种跨视角几何约束，提出了一种基于测地流的相关性度量方法以实现高效测量，以及开发了一种视角条件提示机制，以增强跨视角自适应学习过程中的视角信息建模。与之前的无监督领域自适应和开放词汇语义分割方法相比，实验表明该方法在不同跨视角自适应基准测试中取得了卓越的性能。

Paper12 Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection

这篇论文介绍了CoDAv2，一个用于从开放类别列表中进行3D对象检测的统一框架，专注于新颖3D对象定位和分类，尤其是在基础类别有限的情况下。一种新的策略，称为3D新颖对象发现（3D-NOD），在训练期间使用3D几何和2D开放词汇语义数据来检测新对象。论文通过一种称为3D-NODE的丰富化方法扩展了这一策略，该方法增加了训练场景中新颖对象的分布，从而提高了模型的定位能力。新对象的分类是通过发现驱动的跨模态对齐（DCMA）模块实现的，该模块对齐来自3D点云和2D/文本模态的特征，使用类不可知和类特定的对齐，这些对齐会迭代细化。该模块还集成了名为Box-DCMA的2D框引导，以提高分类准确性。CoDAv2的优越性通过广泛的评估得到了证明，超过了先前的方法，并取得了显著的进步。源代码和预训练模型已在线提供。

Paper13 Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection

这项研究专注于开放词汇目标检测（OVD），特别是针对背景解释和模型过拟合的挑战。研究人员提出了一种新的框架LBP，该框架建议学习背景提示，以利用隐含的背景知识并提高基础类别和新类别检测性能。LBP框架由三个模块组成：背景类别特定提示、背景对象发现和推理概率校正。这些模块增强了检测器从背景提案中发现、表示和利用隐含对象知识的能力。所提出的方法在OVD任务上显著优于现有的最先进方法，这一点在两个基准数据集OV-COCO和OV-LVIS上得到了证明。

Paper14 Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding

previous answer

文章讨论了时间句子的定位挑战，特别是由基于DETR的模型产生的重叠和冗余提议导致的准确性问题，以及由于复杂的解空间而难以区分可学习查询的困难。为了解决这些问题，作者引入了区域引导变压器（Region-Guided TRansformer，简称RGTR），它使用锚点对代替可学习查询来提供显式的区域指导，从而降低优化难度并消除预测中的冗余。该模型还包括一个IoU感知的评分头，以提高提议的质量。作者在QVHighlights、Charades-STA和TACoS数据集上测试了RGTR的有效性，结果显示其性能超过了当前领先的方法。

Paper15 Who Writes the Review, Human or AI?

研究表明了一种区分人工智能生成文本和人类编写文本的方法，特别关注于书评。该策略使用了迁移学习，这提高了模型检测不同主题之间风格和词汇变化的能力。作者使用了真实和人工智能生成的评论（使用Vicuna开源语言模型创建）来开发测试数据集，在识别文本来源方面达到了96.86%的准确率。这项工作有助于理解大型语言模型在文本识别领域的能力和局限性，这对于确保未来内容的完整性至关重要。

Paper16 OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation

研究人员为视觉语言模型（VLMs）中的开放词汇分割引入了一种新的任务领域自适应方法。这解决了这些模型缺乏特定领域知识的问题。他们提出了一种新的方法，将参数高效的提示调优与基于三元组损失的训练策略相结合。他们的方法既增强了开放词汇的泛化能力，也提高了视觉领域自适应能力。在一系列室内外数据集上，这种新方法在开放词汇分割分类任务中优于其他参数高效的适应策略。此外，它在零样本查询方面也超过了原始VLM。这种新方法的实施显著提高了OV-Seg和OpenMask3D的性能，这表明它能够很好地融入现有的开放词汇分割流程中。

Paper17 RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection

该研究提出了一种名为RTGen的新方法，它生成可扩展的开集词汇区域-文本对，以提高开集词汇目标检测的性能。RTGen在可扩展的图像-字幕数据上同时使用文本到区域和区域到文本的生成过程。图像修复，由所提出的场景感知修复系统引导，为文本到区域的生成提供支持。区域到文本的生成包括具有不同提示的多个区域级图像字幕生成，基于CLIP相似度选择最佳对应的文本。提出了一种新的定位感知区域-文本对比损失，以增强区域-文本对上的检测训练，学习具有各种定位质量的对象提案。实验揭示了RTGen的有效性和可扩展性，其性能优于现有方法，并且随着使用更多数据继续提高性能。

Paper18 Reasoning3D – Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models

文章介绍了一项名为零样本3D推理分割的新任务，用于在3D分割中搜索和定位物体的部分。这代表了3D分割的一个新方面，克服了之前类别特定、实例和开放词汇3D分割的问题。作者开发了一种基线方法，称为Reasoning3D，该方法能够理解和执行复杂的命令，对3D网格的特定部分进行细粒度分割。它使用预训练的2D分割网络，结合大型语言模型（LLMs）来解释文本用户输入，无需额外训练。在数据集使用方面也非常高效。实验结果显示，该方法能够根据上下文文本线索有效地定位和突出3D物体的特定部分。此外，它还生成了与这些3D模型相对应的自然语言解释。这种无需训练的方法可以快速部署在机器人、增强现实、虚拟现实等多个领域。作者已将代码、模型权重、部署指南和评估协议在线公开。

Paper19 Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation

这篇摘要提出了一种名为H-CLIP的微调策略，旨在提高CLIP在开放词汇语义分割方面的能力。它解决了CLIP中的高计算成本、模态不对齐和弱泛化能力等问题。H-CLIP引入了一种在超球面空间进行的参数高效微调（PEFT），使用有效的变换矩阵和双重交叉关系通信模块。此外，它还根据超球面能量原理向PEFT添加了一个约束，以保持文本编码器的泛化能力。评估结果显示，H-CLIP在开放词汇语义分割方面提供了最先进的结果，同时仅需要改变CLIP总参数的4%。

Paper20 GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts

文章提出了一种新的方法，将描述性语言与3D环境相结合，以改进人体运动生成。作者用开放的词汇场景编码器替代了传统的封闭词汇场景编码器，并使用现有的图像分割模型对其进行预训练。这种两步法方法整合了两个新颖的正则化损失，以改进微调阶段。与之前的模型相比，该方法在HUMANISE数据集上的测试中，将目标对象距离度量标准显著降低了30%。同时，它也为未来的研究开辟了新的途径，因为它可以有效地整合未来的2D分割方法，提供与文本对齐的特征。

Paper21 OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision

这篇文章介绍了一种名为OV-DQUO的开词汇检测器，用于检测新类别中的对象，该检测器是在基础类别上训练的。它解决了现有检测器中的一个普遍问题，即它们会混淆新类别与背景。为了减少这种混淆，新方法采用了一种通配符匹配方法，使检测器能够从开放世界检测器识别的未知对象对中学习，以及具有一般语义的文本嵌入。此外，还增加了一种去噪文本查询训练策略，该策略从未知对象中合成查询框对，并在训练过程中使用对比学习，以提高对新对象的识别。该模型在没有额外训练数据的情况下，在OV-COCO和OV-LVIS基准测试上取得了最先进的成果，并且模型和代码已经公开可用。

Paper22 EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions?

文章介绍了EgoHOIBench，这是一个用于评估以自我为中心的视频-语言训练为基础的手-对象交互（EgoHOI）学习模型的基准。当前的EgoHOI相关模型由于固有的局限性以及对多样化现实场景中细粒度概念关注不足，表现出较低的性能。为解决这些问题，引入了一种新颖的方法，称为EgoNCE++。它增强了视频到文本和文本到视频损失的对称对比目标。对于视频到文本损失，它通过利用大型语言模型的上下文学习来生成负字幕；对于文本到视频损失，它提出了一种以对象为中心的正视频采样策略。实验表明，EgoNCE++在HOI识别、多实例检索和动作识别任务中显著提高了不同自我中心模型的性能，最高提升了26.55%。

Paper23 GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane

这篇文章介绍了一种名为GOI的框架，它改进了3D开放词汇场景理解，这对于增强现实和机器人技术非常重要。GOI涉及将来自2D视觉-语言模型的语义特征集成到3D高斯溅射（3DGS）中，利用可优化的语义空间超平面来识别感兴趣的3D高斯。文章采用了一种独特的方法来管理开放词汇查询过程，将特征选择视为特征空间内的超平面划分。这有助于更精确地识别目标区域。GOI还引入了一种高效的压缩方法，将高维语义特征简化为紧凑的低维向量，并嵌入到3DGS中，这提高了定位相关3D高斯的准确性。通过大量实验，GOI优于之前的方法，其优越性得到了证明。

Paper24 Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

这项研究强调了大型语言模型（LLMs）的一个重大缺陷：由于错误的分词，它们在准确理解特定查询时存在困难。研究人员构建了一个对抗性数据集ADT，该数据集来源于不同开源LLMs的词汇表，用以测试这一分词弱点。ADT由手工构建和自动生成的子集组成，非常有效地挑战了领先LLMs的分词过程，并因此降低了它们的能力。该研究在关注LLMs的分词漏洞方面独具特色，为未来通过优化分词算法来提升LLMs能力的研究铺平了道路。

Paper25 Uncertainty Management in the Construction of Knowledge Graphs: a Survey

本文概述了在构建知识图谱（KGs）过程中处理不确定性和冲突的各种方法。它详细介绍了从不同来源自动提取知识并维护开放和企业知识图谱质量的技术。此外，还探讨了增加不确定性的方法，如知识提取，使用嵌入模型的KG补全，知识对齐和旨在减少不确定性的知识融合。最后，文章还讨论了在构建知识图谱时考虑不确定性的当前挑战和潜在视角。

Paper26 Map-based Modular Approach for Zero-shot Embodied Question Answering

这段话的中文翻译是：本工作的主要贡献是开发了一种基于地图的模块化实体问答（EQA）方法，使真实机器人能够在不熟悉的环境中进行导航。所提出的模型使用基于前沿的建图方法，并利用支持开放词汇的基础模型来处理未知的问答对。与之前的设计相比，这大大拓宽了可能的问答互动范围。该方法在虚拟环境（MP3D-EQA）和两个现实世界的家庭环境中进行了测试，证明了其在现实场景中执行EQA任务的有效性。

Paper27 CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection

这篇论文的关键贡献是提出了一个新的目标函数，旨在增强视觉-语言预训练模型（VL-PTMs）的分布外（OOD）泛化能力，同时提高微调过程中对未见类的检测。研究表明，通过最小化训练数据上能量分数的梯度幅度，可以得到分类损失的一致域Hessian，从而增强OOD泛化。基于这一发现，论文提出了一个统一的微调框架，用于优化OOD泛化和未见类检测。实验结果验证了所提方法的优势。开发的代码已公开供大家使用。

Paper28 DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution

这篇论文介绍了一种名为DynRefer的新方法，用于区域级别的多模态模型，它将参照的图像区域翻译成自然语言描述。该方法采用了一种动态分辨率技术，模仿人类的视觉认知来实现高精度的区域级参照。这是通过随机视觉-语言对齐来实现的，该对齐将语言描述与具有随机分辨率的图像进行匹配。此外，它还通过基于图像和语言先验选择视角来引入动态多模态参照。这种对分辨率的极高适应性增强了区域级多模态模型的表示。大量实验表明，在区域级标题生成、开放词汇区域识别和属性检测等任务上取得了相互改进。DynRefer凭借单一模型为多个区域级多模态任务设定了新的基准。该代码在GitHub上公开可用。

Paper29 GECKO: Generative Language Model for English, Code and Korean

文章介绍了GECKO，这是一个针对韩语、英语以及编程语言进行优化的大型语言模型。GECKO使用LLaMA架构在平衡的韩英双语语料库上进行预训练，因此在生成两种语言的标记方面都非常高效。尽管训练的标记数量少于其他大型语言模型（LLMs），但GECKO在韩语MMLU基准测试中表现出色，并且在英语和编程方面也展现了可敬的性能。作者还讨论了他们在为语言模型创建更优质数据管道方面的经验。GECKO可供开源使用，并为韩语大型语言模型研究提供了宝贵的资源。

Paper30 Open-Vocabulary SAM3D: Understand Any 3D Scene

这篇文章介绍了OV-SAM3D，一种通用的开放词汇3D场景理解方法，该方法不需要对场景有任何先验知识。该方法使用了两个关键的子模块：一是生成超点作为初始的3D提示，并使用Segment Anything Model（SAM）的分割掩码来细化它们；二是结合一个重叠分数表与Recognize Anything Model（RAM）的开放标签，以生成带有开放世界标签的最终3D实例。正如在ScanNet200和nuScenes数据集上的评估所示，这种方法在未知开放世界环境中的表现优于现有方法。

Paper31 3D Unsupervised Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving

文章提出了一种名为UOV的新型3D无监督框架，该框架在自动驾驶中得到了2D开放词汇分割模型的支持。UOV引入了一种称为Tri-Modal对比预训练（TMP）的文本和图像特征的新型整合方法，并使用伪标签和跨模态知识蒸馏，同时解决了噪声和标签混淆问题。所提出的框架经过了广泛测试，并在nuScenes的无标注点云分割任务上取得了破纪录的性能，比之前的最佳模型提高了10.70%。在有限数据的微调方面，UOV也超越了所有之前的模型。

Paper32 Investigating Robustness of Open-Vocabulary Foundation Object Detectors under Distribution Shifts

这段话的中文翻译如下：

本研究的主要贡献是对开放词汇目标检测框架的分布外（OOD）鲁棒性进行了研究，使用了三种尖端模型：OWL-ViT、YOLO World 和 Grounding DINO。研究包括对这些模型的零样本能力进行彻底评估，使用的是包含分布变化的COCO-O和COCO-C基准。研究人员还计划在GitHub上发布他们的源代码，以便更广泛的科学社区进行进一步的研究和发展。

Paper33 TIGER: Text-Instructed 3D Gaussian Retrieval and Coherent Editing

本文的主要贡献是创建了一种名为TIGER（文本指导的3D高斯检索与编辑）的新系统方法，用于编辑名为3D高斯溅射（3DGS）的场景表示技术内的对象。论文引入了一种自下而上的语言聚合策略，允许更密集的3D高斯嵌入，从而实现开放词汇检索。此外，它还提出了一种连贯分数蒸馏（CSD）技术，以防止编辑过程中的过度平滑和不一致。该技术结合了2D图像编辑扩散模型和多重视图扩散模型，产生了比先前技术更精细细节的多视图一致性编辑。通过各种实验，论文展示了TIGER比先前方法实现了更一致和更真实的编辑效果。

Paper34 Tuning-free Universally-Supervised Semantic Segmentation

这篇研究介绍了一种语义分割框架，该框架使用CLIP的零样本分类来为各种监督类型创建伪标签。它通过一个对齐的CLIP来解决掩膜和CLIP文本嵌入之间可能的不对齐问题，这种对齐的CLIP通过歧视偏差对齐，能够紧密地对齐这些元素并提高性能。研究团队还构建了一个全局-局部一致的分类器来分类SAM掩膜，该分类器能够处理来自DBA-CLIP的高质量嵌入，并保持对伪标签的鲁棒性。研究人员通过广泛的实验证实了他们方法的有效性，在多个数据集和监督类型上实现了要么是 state-of-the-art 要么是具有竞争力的性能。以下是翻译：

该研究引入了一种语义分割框架，利用CLIP的零样本分类能力为不同类型的监督生成伪标签。它通过一个歧视偏差对齐的CLIP来解决掩膜与CLIP文本嵌入之间可能的不一致，这种对齐能够紧密地协调这些元素，从而提升表现。团队还开发了一个全局与局部一致的分类器来对SAM掩膜进行分类，该分类器能够处理DBA-CLIP的高质量嵌入，并保持对伪标签的稳健性。研究者通过大量实验证实了该方法的有效性，在多个数据集和监督类型中，取得了最先进或竞争性的性能表现。

Paper35 UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings

这项研究主要集中在乌兹别克语的形态分析上，由于其粘着性质和众多的词尾可能性，这构成了一项挑战。为了应对这些挑战，开发了一个模型，该模型主要包括制定一套完整的词尾并分配形态信息，以及为形态分析提供额外的数据集等步骤。该模型在语言专家的手动验证下，实现了超过91%的单词级别准确度。最终的工具可以作为基于网页的应用程序和一个开源的Python库供人们使用。

Paper36 Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian

这段话的中文翻译是：本工作的贡献是开发了Vikhr，这是一种针对俄语文本生成的新型最先进的大型语言模型（LLM）。Vikhr通过使用适配的标记器词汇库以及持续对全部权重进行预训练和调优，显著提高了计算和上下文效率。它不仅超过了其他开源的俄语LLM，在某些基准测试中甚至超过了某些专有的闭源模型。此外，作者还扩展了用于预训练的指令数据集和语料库，这有助于模型的卓越表现。该模型的权重、指令集和代码都是公开可用的，支持进一步的研究。

Paper37 Unsupervised Image Prior via Prompt Learning and CLIP Semantic Guidance for Low-Light Image Enhancement

本文解决了低光照条件下机器认知的问题。主要贡献包括：

一种改进的零参考低光照增强方法，该方法利用视觉-语言CLIP先验，无需收集正常光照数据。
一种学习引导增强方法的提示策略，提高图像对比度并减少过度增强和噪声放大。
提出通过零样本开放词汇分类重用CLIP模型进行语义引导，优化基于任务的低光照增强性能，而不是人类视觉感知。
在不同数据集上的多个实验结果，验证了该方法的一致性及其与现有最先进方法的竞争力。

Paper38 Open-Vocabulary Spatio-Temporal Action Detection

这篇论文提出了一个名为开放词汇空间时间动作检测（OV-STAD）的新版本的时空动作检测（STAD），旨在有效地处理不熟悉动作类别的检测。他们构建了两个基准来评估系统性能。关键方法之一是使用预训练的视频-语言模型（VLM），这些模型在定位的视频区域-文本对上进行进一步微调，以增强运动检测以及视频区域和文本之间的对齐。他们还在对齐之前合并了局部区域特征和全局视频特征，提供上下文以改善动作检测性能。所提出的方法在新类别的动作上取得了显著的积极性能。

Paper39 Data Science Principles for Interpretable and Explainable AI

本文深入讨论了可解释和交互式机器学习主题，旨在通过使复杂模型更加透明和可控来增强用户的自主性。主要贡献包括引入了一个专门用于讨论可解释性的词汇表，提供了与经典统计和设计原则的关联，通过一个案例研究说明了基本的可解释性技术，并概述了如何客观地评估可解释性方法。此外，文章强调了在设计交互式算法系统时考虑受众目标的重要性，讨论了未来的挑战，并提出了数据科学在解决这些问题中可能扮演的角色。文中还包含了一个可复现所有例子的易于访问的代码。

Paper40 When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models

本文全面回顾了集成大型语言模型（LLMs）与3D空间数据（3D-LLMs）的方法论，这是体现AI系统迅速发展的一个方面。文章讨论了LLMs的独特优势，包括上下文学习、推理、世界知识和开放词汇能力。展示了各种表示3D数据的方法，例如点云和神经辐射场（NeRFs），这些方法在3D场景理解、字幕生成、问答、对话、空间推理、规划和导航等相关任务中得到了越来越多的应用。简要回顾了其他集成3D和语言的方法。尽管该领域取得了长足的进步，但作者强调需要新的方法来最大化3D-LLMs的潜力，并敦促进行更多研究以进一步提升其能力。为了帮助实现这一目标，创建了一个项目页面，列出了相关论文。

Paper41 SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection

开放词汇目标检测（OvOD）随着一种名为语义层次结构枢纽（SHiNe）的新型分类器的发展而得到改进。这个分类器利用了类别层次结构的知识，以解决现有OvOD检测器在处理不同语义粒度时遇到的问题。通过三个离线步骤，SHiNe检索相关类别，将它们同化为层次结构感知的句子，然后生成一个枢纽分类器向量。这增强了在多种词汇粒度上的鲁棒性，使用真实层次结构时，mAP50得分最多提高了31.9%。此外，SHiNe在ImageNet-1k上的开放词汇分类任务中将零样本基线准确率提高了2.8%。该分类器无需训练，并且可以与任何现有OvOD检测器集成，而不会增加计算负担。源代码公开可用。

Paper42 A Survey On Text-to-3D Contents Generation In The Wild

摘要概述了通过文本到3D生成技术实现3D内容创建自动化的多种方法的探索。这些技术使用文本描述来生成3D内容，旨在简化创建3D内容的劳动密集型过程。论文对这些技术进行了广泛分析，检查了不同的3D表示、生成管道和评估指标等其他特性。它进一步将这些技术比较和分类为前馈生成器、基于优化的生成和视图重建方法。研究还强调了当前技术的局限性，并建议在寻求改进和高效的3D内容创建技术方面进行未来研究的领域。

Paper43 Open-Vocabulary Object Detection via Neighboring Region Attention Alignment

这篇论文提出了一个新的模型，名为邻域区域注意力对齐（NRAA），用于开放词汇目标检测（OVD）。这种方法仅使用基础注释和开放词汇知识就能检测到新的目标类别。通常，现有的OVD策略在对齐过程中由于区域间缺乏相邻关系而面临性能限制。所提出的NRAA模型通过将这种关系信息融入蒸馏过程，来改善检测器与预训练的视觉-语言模型之间的对齐，从而解决了这个问题。论文通过大量实验证实，新模型在开放词汇基准测试中表现出卓越的性能。

Paper44 Open-vocabulary Auditory Neural Decoding Using fMRI-prompted LLM

这篇论文的主要贡献包括引入了一种新的方法——脑提示GPT（BP-GPT），用于从脑信号中解码语言信息。这种方法通过专注于开放词汇连续文本解码，而不是较小的词汇集，改进了之前的工作。该方法包括使用从fMRI中提取的脑表示作为提示，利用预训练的语言模型将fMRI信号解码为刺激文本。研究人员还引入了文本到文本的基线，以将fMRI提示与文本提示对齐，提高脑提示的鲁棒性并增强解码。该方法在一个开源的听觉语义解码数据集上进行评估，并显示相较于现有方法有显著的改进。

Paper45 Constructing a BPE Tokenization DFA

这篇论文介绍并评估了一种算法，该算法旨在有效地构建确定性有限自动机，直接作用于广泛使用的字节对编码技术产生的分词结果。这一发展使得各种现有方法和算法（如模式匹配、分词字典等价性检查以及以不同方式组合分词语言等）能够在分词场景中得到应用。

Paper46 MedConceptsQA: Open Source Medical Concepts QA Benchmark

这篇文章介绍了MedConceptsQA，这是一个新的开源医学概念问答基准。该基准包含了不同难度级别，并包括了各种医学术语词汇。在测试中，临床大型语言模型的表现不佳，但GPT-4在准确性上提供了显著的改进。这项工作为评估大型语言模型在医学领域的理解和推理能力提供了一个重要的工具。

Paper47 Are EEG-to-Text Models Working?

这篇论文批判性地审查了现有的开放词汇EEG到文本翻译模型，指出先前的研究在评估过程中经常不恰当地使用教师强迫（teacher-forcing），导致性能指标的人工膨胀。它指出缺乏将模型性能与纯噪声输入进行比较。通过提出的方法论，它试图区分真正从EEG信号中学习的模型和只是记忆数据的模型。他们的分析显示，模型在噪声数据上的性能可能与在EEG数据上的性能相当。他们建议采取更严格的评估过程，并用噪声输入进行基准测试，以确保对模型能力的可靠评估，进一步推动健壮的EEG到文本通信系统的发展。

Paper48 OpenBA-V2: Reaching 77.3% High Compression Ratio with Fast Multi-Stage Pruning

OpenBA-V2，一个拥有34亿参数的模型，被引入以管理与大语言模型（LLMs）相关的高昂部署和推理成本。该模型由原始的15亿参数OpenBA模型通过多阶段压缩和持续预训练得到，OpenBA-V2采用了创新的训练目标、大量的数据利用以及诸如层剪枝、神经剪枝和词汇剪枝等技术。这实现了77.3%的压缩率，同时性能损失最小。它与类似大小的开源模型相比具有竞争力，甚至在诸如常识推理和命名实体识别等任务中达到了与15亿参数的OpenBA模型相似的结果。这些先进的训练和数据策略表明，LLMs可以在不显著损失性能的情况下有效地压缩，从而促进它们在资源受限情况下的部署。

Paper49 Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control

这篇文章提出了一种解决方案，以解决实体AI代理在使用对比训练模型时无法对其环境进行详细了解的问题，这一问题限制了它们的控制能力。作者建议使用文本到图像的扩散模型来创建稳定的控制表示，这些表示可以发展出适用于开放性环境的下游控制策略。在多种模拟控制中，使用稳定控制表示创建的策略与采用领先表示学习技术形成的策略进行了公平竞争。特别是，这些表示使OVMM（一个开放词汇导航基准测试）上的顶级表现策略成为可能。以下是具体翻译：

本文展示了针对实体AI代理无法通过对比训练模型深入理解环境的问题的解决方案，这一限制影响了它们的控制能力。作者提出利用文本至图像扩散模型来生成稳定的控制表示，这些表示能够发展出适用于开放性环境的下游控制策略。在多种模拟控制场景中，通过稳定控制表示生成的策略与采用领先表示学习技术形成的策略进行了良好竞争。具体来说，这些表示使得在OVMM（一个开放词汇导航基准测试）上的顶级策略得以实现。

Paper50 DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation

主要贡献包括引入了一个新的任务，该任务要求使用基于3D高斯扩散的拖动编辑框架进行用户友好的3D对象编辑。这个新框架，名为DragGaussian，利用扩散模型进行交互式图像编辑。它使用户能够在预先训练的3D高斯对象模型上进行基于拖动的编辑，生成从多个视角看都一致的修改后的2D图像。DragGaussian的有效性已通过各种定性和定量实验得到验证。

Paper51 RoboHop: Segment-based Topological Map Representation for Open-World Visual Navigation

这篇文章介绍了一种基于“图像段”的新型拓扑表示方法，用于环境建图，它在空间推理、规划和机器人导航方面优于之前的方法。作者创建了一个拓扑图，其中边缘通过连接连续图像对之间的段级描述符以及连接图像内相邻的段来定义。这提供了一种基于段及其相邻数据的持久性的连续场所感。文章还介绍了使用这种地图表示通过自然语言查询生成导航计划和搜索目标对象的方法。此外，它还分析了在段级别上的数据关联，这对于建图和定位至关重要。最后但同样重要的是，作者已经对现实世界导航中的段级“跳跃”进行了初步试验。

Paper52 OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies

文章介绍了一种名为OpenESS的新方法，用于改进基于事件的事件语义分割（ESS），这是事件相机感知中的关键任务。该方法协同利用图像、文本和事件数据的信息，将CLIP知识从图像-文本对转移到事件流中。关键创新包括帧到事件的对比蒸馏以及文本到事件语义一致性正则化，这两种方法都试图解决数据表示差异，以实现更好的跨模态适应性。在流行的事件ESS基准测试中，该方法的表现优于现有方法。值得注意的是，它在DDD17和DSEC-Semantic上分别达到了53.93%和43.31%的mIoU，而且这一切都是在不使用事件或帧标签的情况下实现的。

Paper53 Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving

这项研究提出了LaserMix++，一个用于自动驾驶应用中LiDAR语义分割的半监督学习框架。它专注于高效的数据利用，减少对大量人工标注的LiDAR点云的依赖。创新点包括：1) 用于跨传感器交互的多模态LaserMix操作；2) 用于增强LiDAR特征学习的摄像头到LiDAR特征蒸馏；3) 使用开放词汇模型的基于语言的知识引导。LaserMix++适用于各种LiDAR表示，使其成为一个通用解决方案。它优于全监督方法，使用五分之一的标注即可达到类似的准确度，并提高了仅监督的基线。这表明半监督方法在减少LiDAR基三维场景理解系统对大量标注数据的依赖方面具有潜力。

Paper54 DiffMatch: Visual-Language Guidance Makes Better Semi-supervised Change Detector

这篇文章介绍了一种半监督的变化检测（CD）方法，称为DiffMatch，它利用视觉语言模型（VLMs）为未标记数据合成变化标签。DiffMatch在有限标记数据下提高了CD的可读性和性能。它克服了当前VLMs的局限性，这些VLMs大多是为单时相图像设计的，并提出了一种基于VLM的混合变化事件生成（CEG）策略，用于双时相或多时相图像。作者引入了一个双重投影头，以处理来自伪标签和一致性正则化范式产生的冲突信号，并通过由VLM指导的两个辅助分割解码器解耦双时相图像的语义表示。该模型还具备度量感知监督，以获得更好的变化表示。实验表明，DiffMatch在基线上的显著改进，并且性能优于现有的无监督CD方法。

Paper55 Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting

文章介绍了Splat-MOVER，这是一种新颖的模块化机器人技术堆栈，专为机器人操作而设计。这个堆栈的组件包括ASK-Splat、SEE-Splat和Grasp-Splat，它们分别处理语义和功能理解、实时场景编辑和抓取生成。这个工具集使用了高斯分布渲染（GSplat）场景表示。一个关键优势是创建实际环境的“数字孪生”，这个数字孪生在执行操作任务期间会不断演变。Splat-MOVER的性能通过在Kinova机器人上进行的硬件实验得到了验证，并且在单阶段和多阶段操作任务中均优于两种最新的基线方法。Splat-MOVER能够反映由于前期操作阶段导致的机器人任务变化，这是现有基线方法无法实现的。

Paper56 EEG2TEXT: Open Vocabulary EEG-to-Text Decoding with EEG Pre-Training and Multi-View Transformer

本文提出了一种新方法EEG2TEXT，以提高开放词汇EEG到文本解码的准确度。该方法利用EEG预训练从EEG信号中学习语义，并使用多视角变换器来模拟大脑空间区域的EEG信号处理。实验结果表明，EEG2TEXT在BLEU和ROUGE评估得分上比现有方法高出最多5%，从而展示了构建高性能开放词汇脑到文本系统以辅助沟通的高潜力。

Paper57 Semi-Parametric Retrieval via Binary Token Index

本文的关键贡献是引入了半参数词汇解耦检索（SVDR），这是一种半参数检索框架，旨在应对索引效率、成本效益和新鲜度需求的不断提高。SVDR允许使用两种类型的索引：一种基于嵌入的索引以实现高效率，以及一种基于二进制令牌的索引以实现快速且成本效益的设置。在评估中，SVDR表现出卓越的性能，与基于嵌入的索引的密集检索器DPR相比，其top-1检索准确率提高了3%；与基于二进制令牌的索引的BM25相比，准确率提高了9%。重要的是，使用基于二进制令牌的索引显著减少了索引准备时间和存储大小，与基于嵌入的索引相比，减少了90%。

Paper58 One-Stage Open-Vocabulary Temporal Action Detection Leveraging Temporal Multi-scale and Action Label Features

这项研究的主要贡献是开发了开放词汇时间动作检测（Open-vocab TAD），它扩展了封闭词汇时间动作检测的能力。Open-vocab TAD克服了在当前流行的两阶段方法中常见的预定义动作类别的局限性，取而代之的是一种单阶段方法，包括多尺度视频分析（MVA）和视频文本对齐（VTA）。MVA在多种时间分辨率下捕捉动作，使得能够检测到具有不同持续时间的动作，而VTA将动作标签与视频段对齐，以实现准确识别。使用THUMOS14和ActivityNet-1.3数据集进行的评估表明，在开放词汇和封闭词汇设置中，提出的方法优于其他方法。

Paper59 MoST: Multi-modality Scene Tokenization for Motion Prediction

这篇文章的主要贡献是提出了一种新的运动预测方法，该方法克服了现有方法中普遍存在的问题。研究不是依赖于符号感知输出或从原始传感器进行端到端学习，而是提议将视觉世界进行标记化，并使用预训练的图像基础模型和LiDAR神经网络来编码场景元素。所提出的模型能够使用几百个标记有效地编码多帧多模态观测，并且能够与大多数基于变压器的架构一起工作。为了验证这一新方法，研究使用了带有摄像头嵌入的增强型Waymo开放运动数据集，与现有的最先进模型相比，取得了显著的性能提升。

Paper60 Garbage Segmentation and Attribute Analysis by Robotic Dogs

这项研究介绍了GSA2Seg，这是一种独特的视觉方法，利用四足机器狗在各种环境中进行废物管理和回收。通过结合垃圾分割和属性分析，这些智能体能够准确确定垃圾的位置和状况，提高成功回收垃圾的能力。为了促进评估，还提供了一个新的图像数据集GSA2D。在这个数据集上的大量实验证实了系统的有效性。

Paper61 MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition

这段话的中文翻译是：本文的主要贡献是讨论了作者组织的一系列挑战，以推动多模态情感识别（MER）的进步，这是人工智能领域的一个重要话题。最新的挑战，即MER2024，不仅扩大了数据集的规模，还引入了一个新的开放词汇情感识别赛道。这个新赛道不限制标签空间，鼓励参与者生成任何类别的标签，以获得对情感状态的更准确描述。作者使用MERTools作为他们的基线，并且代码已在线提供使用。

Paper62 DENOISER: Rethinking the Robustness for Open-Vocabulary Action Recognition

这篇论文讨论了计算机视觉中开放词汇动作识别（OVAR）任务的局限性。当前模型通常依赖于类标签作为文本描述的准确性，但并不总是能抵御用户错误，如拼写错误和打字错误。研究人员提出了一个新颖的DENOISER框架，旨在通过一个两部分的系统解决这一问题，该系统包括生成和判别。生成部分提出文本候选，同时使用跨模态和同模态信息来选出最佳候选。判别部分将视觉样本分配给类文本名称，从而产生更准确的语义。该框架在两个组件之间交替迭代，逐步改进分类，以提高准确性和鲁棒性。在三个数据集上的测试表明了这种方法具有卓越的鲁棒性。

Paper63 Converter: Enhancing Interoperability in Research Data Management

这项研究聚焦于通过标准化数据发布方式，解决数据异质性问题，从而提升柏林大学联盟内研究数据管理（RDM）的水平。该研究创新性地开发了一个新颖的“转换器”组件，促进了收获的数据仓库之间的一致性。通过对现有Piveau框架的修改，实现了这一发展，这增强了研究社区内的数据可访问性、协作性和互操作性。

Paper64 Evaluating Subword Tokenization: Alien Subword Composition and OOV Generalization Challenge

这项研究提出了一个新的子词分词在语言模型中的评估框架，该框架结合了内在评估和外在评估。内在评估是使用一种名为UniMorph标记器的新工具进行的，该工具将子词分词分类为形态学或异类。外在评估使用了词汇外泛化挑战1.0基准，用于文本分类任务。研究发现，UniMorph标记器的准确率为98%，并揭示了在各种语言模型中，与形态学分词相比，异类分词会导致单词意义的语义组合性泛化效果较差。

Paper65 ECOR: Explainable CLIP for Object Recognition

文章提出了一种数学方法，用于提高大型视觉语言模型（VLMs），如CLIP，在物体识别任务中的可解释性。这些方法基于类别和解释理由的联合概率分布。当将这些方法应用于微调CLIP时，这些模型在可解释分类方面表现出最先进的性能，尤其是在零样本设置中表现突出。代码将公开可用。这一进展通过提高可解释的物体识别，增强了在各种应用中的信任度。

Paper66 Neural Semantic Parsing with Extremely Rich Symbolic Meaning Representations

作者们基于词汇本体论层级结构中的位置，为概念引入了一种新颖的组成符号表示。这种表示增强了语义信息的丰富性，以及对开放领域神经语义解析器的解释。所引入的“分类学”神经语义解析器利用了这种谓词的新颖表示方案。当与使用传统解析器及标准度量进行对比时，分类学模型显示出较低的性能。然而，在处理词汇外的概念时，它显示出卓越的性能。结果表明，数据驱动的分布式意义与基于知识的符号表示的结合，可能为计算语义研究提供有趣的见解。

Paper67 Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds

这项工作结合了现代深度学习技术和大型数据集，创建了一个以人为中心的环境下的机器人交互与操作框架。作者使用了典型的3D扫描仪进行三维重建，用于开放词汇实例分割和抓握姿态估计。这使得在3D场景中能够实现精确检测，智能预测抓握并进行持久的机器人操作。该框架的能力通过实现动态抓取物体和打开抽屉来展示。其性能在两个现实世界场景中进行了测试：动态物体检索和抽屉打开，分别达到了51%和82%的成功率。该框架的代码和演示视频已公开可用。

Paper68 The devil is in the object boundary: towards annotation-free instance segmentation using Foundation Models

研究表明，重点关注了SAM和DINO等基础模型在目标检测和实例分割任务中遇到的困难。作者发现这些模型无法区分单个对象之间的边界。他们发现，尽管CLIP这个模型从未接触过实例级别的注释，但仍然能够提供强大的实例级边界先验，从而提高模型性能。基于这一发现，他们提出了Zip模型，这是一个将CLIP和SAM以一种新颖的管道结合在一起的模型。Zip在COCO数据集上的表现显著优于SAM，并在各种设置中设定了新的基准。此外，即使在没有使用注释的情况下，它的表现也与最佳的开词汇目标检测器相媲美。

Paper69 OVAL-Prompt: Open-Vocabulary Affordance Localization for Robot Manipulation through LLM Affordance-Grounding

本研究的主要贡献是引入了OVAL-Prompt，这是一种基于提示的开放词汇可供性定位方法，用于RGB-D图像中，可以帮助机器人有效地理解和与物体互动。该过程利用视觉语言模型（VLM）对物体进行分割，并使用大型语言模型（LLM）识别每个部分。这种方法在管理新物体、类别和可供性方面取得了成功，而无需进行领域特定的微调。测试表明，OVAL-Prompt与监督基线模型相比具有竞争力的定位准确度，并且可以用于基于可供性的机器人操作开放词汇对象实例和类别。

Paper70 Watch Your Step: Optimal Retrieval for Continual Learning at Scale

摘要介绍了一项关于连续学习方法的研究，主要关注重放策略，其中以前的学习经验或样本存储在重放缓冲区中。本文探讨的现有问题包括缺乏从重放缓冲区中选择性检索样本的综合评估方法，以及当前解决方案通常仅在有限和孤立的环境中测试。研究提出了一个评估选择性检索策略的新框架，展示了结合几种现有策略的结果，并提出了防止重复重放的新策略，包括是否可以不经过重放就学习低损失样本。实验使用了一个大型、预训练的目标检测模型，在15个数据集序列上进行微调，以模拟真实的连续学习管道。

Paper71 Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

这项研究的主要贡献是开发了COME-robot，这是一种首个使用GPT-4V基础模型的闭环框架，用于现实世界场景中的开放性推理和自适应规划。一套为机器人探索、操作和导航量身定制的动作原语库帮助模型进行任务规划，使它能主动感知环境并执行情境推理。它还能从错误中恢复，遵循自由形式的指令，并规划长期任务。这种设计优势已通过实验展示，实验结果显示，它比现有的成熟方法提高了大约25%的性能。

Paper72 Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels

本工作的主要贡献是提出了一个名为Cross-MoST的优化框架，该框架提高了零样本3D视觉模型的分类性能。这是通过使用未标记的3D数据及其2D视图实现的。该框架采用学生-教师方法同时处理2D视图和3D点云。这个过程创建了伪标签来训练分类器并对齐跨模型特征。值得注意的是，这使得2D视觉语言模型（如CLIP）能够补充3D表示，以增强分类性能，而无需昂贵的类别注释。在合成和真实世界的3D数据集上进行的测试中，Cross-MoST被发现能够促进高效的跨模态知识共享，使得点云和图像模态能够从彼此丰富的表示中学习。

Paper73 Evolving Interpretable Visual Classifiers with Large Language Models

这项研究提出了一种新的方法，可以发现用于视觉识别的可解释和具有辨识度的属性集，解决了如CLIP等多模态预训练模型的局限性。该方法引入了一种创新的进化搜索算法，利用大型语言模型不断调整一组属性进行分类。它展示了生成顶尖的、可解释的细粒度分类器的能力。尽管基线模型拥有关于类别名称的特权信息，但该方法在选定数据集上的表现仍优于最新基线（最多提高22.2%）。结果显示，这种方法在现实世界应用中具有潜力，因为在这些应用中，类别名称和特殊概念的属性是未知的。

Paper74 kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies

这篇论文探讨了在计算受限环境中，随着词汇量不断扩大，持续分割所面临的挑战。作者发现，传统的持续训练会导致灾难性遗忘，性能甚至不如零样本分割方法。他们提出了一种新的策略，用于在没有遗忘的情况下进行语义和全景分割。他们的一种无需训练的方法，称为kNN-CLIP，利用了实例嵌入的数据库，使分割方法能够在不重新训练或显著内存成本的情况下，持续扩展其词汇量。它在大词汇量语义和全景分割数据集上提供了改进的性能，并为更高效、更灵活的持续分割方法做出了贡献。

Paper75 DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

本文介绍了DetCLIPv3，这是一种高性能的开集目标检测器，它还能为检测到的物体生成层次标签。DetCLIPv3的主要贡献包括一个能够生成标签的多功能模型架构，一个自动注释管道，用于优化图像-文本对的标题，以及一个高效的训练策略，该策略使用具有低分辨率输入的预训练阶段和具有高分辨率样本的微调阶段。DetCLIPv3的独特设计使它能够在LVIS minival基准测试中超越其他模型，包括GLIPv2、GroundingDINO和DetCLIPv2，并在VG数据集上的密集字幕任务中达到最先进的性能。

Paper76 Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation

该研究系统地调查了开放词汇目标检测（OVOD）中新型类别次优检测性能的原因，这是由于先进检测器给新型实例分配了较低的分数。论文提出了两种调整置信度分数的方法：一种是通过区域/对象提案的重叠程度来估计类不可知定位质量，以及一种使用新型类的代理原型进行文本引导的视觉相似度估计。这些方法，结合区域提案和对象分类阶段的调整技术，创建了AggDet，这是一种通用的、无需训练的后处理方案，可以在不增加额外训练成本的情况下，提高各种模型规模和设计的OVOD性能。实验结果显示，在两个基准测试中取得了显著的收益。

Paper77 Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation

这篇论文提出了一个开放词汇语义分割（OVSS）的强基线，称为邻域感知CLIP（NACLIP），这是一种针对OVSS量身定制的CLIP改编版本，无需监督预训练或额外的预训练网络。该方法的一个独特之处在于，它在CLIP视觉变换器的自注意力中强制实现补丁的定位，这是OVSS文献中很大程度上被忽视的一个方面。该方法在无需额外数据、辅助预训练网络或大量超参数调整的情况下显著提高了性能，使其适用于实际应用。在八个流行的语义分割基准测试上进行的实验在大多数情况下都取得了最先进的性能。此外，代码也公开可用，以便进一步的使用和探索。

Paper78 Transferable and Principled Efficiency for Open-Vocabulary Segmentation

本文提出了一种开放词汇分割（OVS）的方法论，解决了与大型模型尺寸相关的计算开销和高昂的微调成本问题。通过使用较小的模型，所提出的策略提高了效率，使得该过程无需额外的定制即可轻松地跨不同的OVS框架进行迁移。该方法在各种OVS基准测试中展现了分割准确性和计算成本之间的良好权衡，优于之前的研究成果。作者通过GitHub链接提供了代码。

Paper79 O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation

这项研究的主要贡献包括开发了O2V-mapping方法，该方法使用基于体素的语言和几何特征进行在线构建开放式的语言场景，这对于机器人应用至关重要。这允许在在线训练过程中进行局部更新。该模型还使用了一种基本的图像分割算法，有助于实现清晰的分割边界和层次语义特征。此外，为了确保在不同视角下3D对象属性的一致性，引入了一种空间自适应体素调整机制和多视角权重选择方法。实验结果表明，O2V-mapping显著提高了在线构建语言场景的准确性和效率，超越了之前的最先进方法。

Paper80 GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation

该研究提出了GOAT-Bench，这是一种针对名为GO to AnyThing（GOAT）的通用导航模型的基准，旨在处理各种类型的目标，以改善用户与机器人之间的互动。该模型可以使用类别名称、语言描述或以开放词汇的方式使用图像来指导。研究人员评估了在此任务上单片RL（强化学习）和模块化方法的表现，并通过目标规范中的噪声鲁棒性、记忆的作用以及记忆对终身场景的影响来评价这些方法。

Paper81 Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation

这篇论文介绍了一种新的开放词汇语义分割技术，称为FreeDA。与之前的方法不同，FreeDA不需要训练，这大大节省了计算成本。它利用扩散模型来视觉定位生成的概念，并将与类别无关的区域与语义类别匹配。这涉及到从大量标题中收集文本-视觉参考嵌入，然后用于支持视觉匹配过程。这种新方法在五个数据集上表现出卓越的性能，以平均mIoU超过之前的方法7.0个点。

Paper82 Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection

这段摘要介绍了一种名为CMD-SE的新型开放词汇人类-对象交互（HOI）检测系统。传统系统在准确建模不同距离的HOIs方面存在困难，且未能利用丰富的语境语言。新系统采用视觉-语言模型（VLMs）并在二分图匹配过程中引入软约束，以改进距离建模。此外，它还使用大型语言模型，如GPT，生成人体部位状态的描述，以捕捉罕见且表现不佳的交互。新系统改进了交互识别，并在开放词汇HOI检测方面设定了新标准。CMD-SE的代码和模型可供使用。以下是中文翻译：

这篇摘要介绍了一个名为CMD-SE的新型开放词汇人类-物体交互（HOI）检测系统。传统系统在跨不同距离准确建模HOIs方面遇到挑战，且未使用丰富的语境语言。新系统采用视觉-语言模型（VLMs），并在二分匹配过程中融入软约束来提升距离建模能力。同时，它还利用大型语言模型，例如GPT，来生成人体部位状态描述，以捕捉那些罕见且未充分表示的交互。新系统提升了交互识别能力，并在开放词汇HOI检测领域树立了新标杆。CMD-SE的代码和模型已开放使用。

Paper83 Retrieval-Augmented Open-Vocabulary Object Detection

这篇研究的主要贡献是提出了一个新的方法——检索增强损失与视觉特征（RALF），用以提升视觉-语言模型中的开放词汇目标检测。RALF方法使用了“负”类，并增强损失函数，同时用类的口头化概念增强视觉特征。RALF由两个模块组成：检索增强损失（RAL），它利用两个反映与负词汇的语义相似度的损失；以及检索增强视觉特征（RAF），它用来自大型语言模型的口头化概念增强视觉特征。实验表明，RALF在COCO和LVIS基准数据集上的性能都有所提升，在新颖类别和掩膜收益方面提供了显著改进。研究人员还提供了代码链接，以供进一步检查和使用。

Paper84 MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

文章介绍了一种名为MoMA的个性化图像模型，该模型无需训练，具备零样本生成能力。MoMA利用开源的多模态大型语言模型（MLLM）来建立源图像与文本提示之间的协同关系，从而帮助生成有价值的图像特征。作者还引入了一种新的自我关注捷径方法，有效地将图像特征传递到图像扩散模型中，提高了生成图像中目标对象的相似度。MoMA模型仅需一张参考图像，就能在生成高细节保真度、增强身份保持和提示忠实度图像方面优于现有方法。这项工作开源且广泛可访问。

Paper85 Hyperbolic Learning with Synthetic Captions for Open-World Detection

这项研究提出了一种新颖的开放世界检测方法，名为“HyperLearner”，它通过从视觉-语言模型转移知识，自动丰富开放词汇的描述。作者没有依赖大规模、人工标注的标题数据集，而是使用预训练的视觉-语言模型在图像的不同区域引导生成密集的合成标题。一个新的检测器在这些标题上进行训练，使其能够泛化到新的概念。为了管理来自幻觉的噪声，设计了一种新的双曲视觉-语言学习方法，在视觉和标题嵌入之间强加一个层次结构。该模型在各种开放世界检测基准测试中表现出色，超过了现有方法如GLIP、GLIPv2和Grounding DINO，并且使用了相同的骨干网络。

Paper86 Mixed-Query Transformer: A Unified Image Segmentation Architecture

这篇论文介绍了混合查询转换器（MQ-Former），这是一种创新架构，用于多任务和多数据集的图像分割，仅使用一组权重。它提出了一种新的混合查询策略，可以动态处理不同类型的对象，而无需启发式设计。该模型允许使用带有合成掩码和标题的数据增强来提高其泛化能力。实验表明，MQ-Former在多个分割任务和数据集上提供了有竞争力的性能，并且在开放集分割任务中的表现明显优于现有模型。

Paper87 Open vocabulary keyword spotting through transfer learning from speech synthesis

这项研究是关于一种新框架，用于增强开放词汇关键词识别，以个性化与智能设备的互动。传统方法在共享嵌入空间中存在音频文本不匹配的问题。所提出的系统通过利用预训练的文本到语音（TTS）系统的知识，将音频意识引入文本编码器的表示中来克服这个问题。其性能通过使用四个不同的数据集以及在不同的情境下进行了测试和比较，例如单词长度和词汇外（OOV）场景。系统还测试了从TTS系统进行迁移学习的有效性。在测试中，该框架显著优于跨模态对应检测（CMCD）方法，这表明它有潜力改善与智能设备的互动。

Paper88 OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views

文章介绍了OpenNeRF，这是一种为了克服3D场景表示与视觉-语言模型（VLMs）兼容性问题而开发的方法。它作用于摆好姿势的图像，并直接编码VLM特征以提高性能。与全局CLIP特征不同，它使用像素级的VLM特征，这简化了架构，减少了额外的DINO正则化的需求。OpenNeRF还利用了NeRF渲染新视图的能力，并从初始摆姿图像中未充分观察到的区域提取开放集VLM特征。在Replica数据集上的3D点云分割任务中，它显著优于最近的方法，如LERF和OpenScene。

Paper89 Is CLIP the main roadblock for fine-grained open-world perception?

这篇论文探讨了开放词汇目标检测在现代应用中的局限性，如扩展现实、自动驾驶和机器人技术。研究的重点在于模型CLIP及其在区分细微对象特征（如颜色、形状和材质）方面的困难。研究发现，由于CLIP潜在空间中对象特征的分离性差，导致了对细粒度理解的不足。论文提供了初步实验，表明CLIP潜在空间的重新投影可以帮助分离细粒度的概念，为处理此类细节的骨干网络的发展指明了方向。作者还提供了用于复现这些实验的代码。

Paper90 Learning Transferable Negative Prompts for Out-of-Distribution Detection

这篇文章介绍了一种新的分布外（OOD）检测方法，名为NegPrompt，它学习一组负提示以描绘分布内（In-Distribution）和OOD图像之间的边界。现有方法由于OOD和分布内（ID）类别之间的不匹配而面临挑战。这些问题可以通过NegPrompt来解决，NegPrompt仅依赖于ID数据，且不需要任何外部异常数据。与当前需要所有ID类别样本才能正常工作的方法不同，NegPrompt在各种学习场景中都能有效执行，即使在推理阶段出现新的ID类别时也是如此。在ImageNet基准测试上的实验结果表明，NegPrompt优于基于最先进的提示学习OOD检测方法，尤其是在封闭和开放词汇分类条件下具有挑战性的OOD检测场景中表现尤为出色。

Paper91 LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity

这篇论文介绍了LeGrad，这是一种专门针对视觉Transformer（ViTs）的可解释性方法，它能提高ViTs的透明度。LeGrad通过计算与ViTs层的注意力图相关的梯度，并使用梯度本身作为所有层的可解释性信号。它结合了最后和中间标记的激活，以创建一个全面的可解释性地图。该方法在各种设置中表现优异，与其他最先进的可解释性方法相比，显示出更好的空间保真度和扰动抗性。LeGrad的代码和演示在线可用。

Paper92 ALOHa: A New Measure for Hallucination in Captioning Models

这篇文章提出了一种改进的度量标准，称为ALOHa，用于测量由多模态预训练模型生成的视觉描述中的对象幻觉。ALOHa在现有的CHAIR度量基础上，利用大型语言模型（LLMs）从标题中提取可定位的对象，然后评估这些对象与参考对象之间的语义相似性。ALOHa度量标准的表现显著优于CHAIR，在HAT数据集中识别出13.6%的更多幻觉对象，在nocaps数据集中识别出30.8%的更多对象，这些对象超出了MS COCO类别。代码已公开可用，以供进一步使用和研究。

Paper93 Vocabulary Attack to Hijack Large Language Model Applications

摘要讨论了一种通过插入使用优化过程和另一个大型语言模型（LLM）的嵌入找到的模型词汇中的特定单词来操纵大型语言模型（LLMs）的新方法。这种方法通过成功攻击两个流行的开源LLMs被证明是有效的。这种方法的主要优势有两个：一是创建不易察觉的指令，使得检测变得困难；二是能够使用与目标模型不同的模型进行攻击，这意味着该方法的广泛应用性。

Paper94 Low-resource neural machine translation with morphological modeling

本文提出了一种在低资源环境下为神经机器翻译（NMT）建模复杂形态学的框架。作者提出了一种双层变压器架构，用于在源端编码形态学信息，并在目标端采用基于束搜索的解码器的多任务多标签训练方案。他们还引入了一种注意力增强方案，用于变压器模型以整合预训练语言模型，促进源语言和目标语言之间的词序关系建模。研究评估了多种数据增强技术，发现在低资源环境下翻译性能有所提高。这些解决方案在基尼亚卢旺达语-英语翻译中进行了测试，使用的是公共领域平行文本，结果令人鼓舞。这项工作旨在鼓励在低资源NMT中更多地使用显式形态学信息。

Paper95 Segment Any 3D Object with Language

本研究介绍了一种称为“用语言分割任何3D对象”（SOLE）的语义和几何感知视觉-语言学习框架。这种新方法有助于使用自由形式语言指令进行开放词汇3D实例分割，与之前的方法相比，它通过直接从3D点云生成与语义相关的掩模，提供了改进。它采用了一个多模态融合网络，用于在骨干和解码器中整合多模态语义。此外，它还引入了三种多模态关联类型，以改善3D分割模型与各种语言指令的对齐，从而提高掩模质量。这个系统在多个基准测试中优于之前的方法，并展示了对语言指令的通用性，即使在训练中没有类注释也能做到这一点。

Paper96 ViTamin: Designing Scalable Vision Models in the Vision-Language Era

文章介绍了一种在CLIP框架下，视觉-语言时代对视觉模型进行评估的新协议。这包括一种全面的基准测试方法，评估模型以及训练数据规模的零样本性能和可扩展性。作者提出了一种新的视觉模型ViTamin，专门为视觉-语言模型（VLMs）定制。在测试中，ViTamin-L的表现超过了ViT-L，使用相同的数据集和训练方案，其ImageNet零样本准确率提高了2.0%。ViTamin在包括分类、检索、开放词汇检测和分割在内的60个基准测试中均显示出有希望的结果。此外，与EVA-E模型相比，ViTamin-XL使用显著更少的参数，实现了82.9%的ImageNet零样本准确率。

Paper97 OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation

这篇论文的主要贡献是开发并引入了OVFoodSeg，这是一个新的食物计算框架，它通过使用开放词汇设置来增强文本嵌入的视觉上下文。这种创新方法解决了与从图像中分割食材相关的问题，包括高标注成本、类内大方差以及新食材的出现。它包括两个独特的模块，即FoodLearner和一个图像信息文本编码器，它们使用视觉-语言模型（VLMs）来改进食材处理。OVFoodSeg的训练过程涉及两个阶段，即FoodLearner的预训练和分割的学习阶段。通过超越现有模型，OVFoodSeg在FoodSeg103数据集上的平均交并比（mIoU）提高了4.9%，从而为食物图像分割设定了新的标准。

Paper98 Open-Vocabulary Federated Learning with Multimodal Prototyping

这篇论文专注于联邦学习（FL）中的开放词汇挑战，其中全局服务器必须理解用户的查询，这些查询涉及到未知的任意类别。为了应对这一问题，开发了一种新颖的适应框架，名为联邦多模态原型化（Fed-MP）。Fed-MP使用预训练的视觉-语言模型（VLMs），并根据轻量级客户端残差聚合本地模型权重。这个框架使用一种独特的多模态原型化机制进行预测，该机制利用从已知类别获得的知识，并增强调整后的VLM对之前未见过的类别的适应能力。通过在多个数据集上的实证评估，证明了Fed-MP的有效性。

Paper99 GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields

文章介绍了一种新颖的方法，称为泛化开放词汇神经语义场（GOV-NeSF），用于改进3D场景理解。GOV-NeSF方法为3D场景提供了一种更加灵活的隐式表示，并且对3D数据的依赖性较低。这是通过使用多视图联合融合模块和代价体来聚集几何感知特征实现的。该方法能够有效预测颜色和开放词汇特征的视图特定混合权重。GOV-NeSF模型在2D和3D开放词汇语义分割方面表现出卓越的性能，其附加优势在于不需要深度先验或真实语义标签，并且能够在不同数据集和场景之间进行泛化，而无需微调。

Paper100 From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

本工作的主要贡献如下：首先，引入了一种新的开放词汇场景图生成（SGG）框架。该框架基于序列生成，旨在应对生成具有新视觉关系概念的场景图所面临的挑战。它在图像到图生成环境中利用了视觉-语言预训练模型（VLM）。其次，实现了一种通过图像到文本生成与VLM生成场景图序列的新方法，并利用此方法构建场景图。研究利用VLM的能力，改进了开放词汇SGG并整合了显式关系建模。最后，实验结果表明，该方法在开放词汇上表现出卓越的性能，并通过显式关系建模知识对视觉-语言任务性能产生了积极影响。