Open-Vocabulary论文速览(101-200)(arxiv截止2024.06.12）

最新推荐文章于 2024-07-17 21:40:42 发布

木木阳

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量903

点赞数 5

文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/weixin_44287798/article/details/139623868

版权

Paper101 Training-Free Semantic Segmentation via LLM-Supervision

这篇论文提出了一种利用大型语言模型改进文本监督语义分割的新方法。与大多数研究不同，这些研究主要通过提示工程或有限的微调来提高模型准确度，本文强调的是优化类别描述符。该方法从像GPT-3这样的大型语言模型中生成了一组详细的子类别，确保了更好的类别表示。应用了一个先进的语义分割模型，使用生成的子类别作为目标标签，使每个子类别都能获得不同的分割结果。此外，还提出了一种组合方法，将不同子类别描述符的分割图合并，从而增强测试图像中方面的表示。该方法在三个标准基准测试中均优于传统方法。

Paper102 Do Vision-Language Models Understand Compound Nouns?

文章介绍了一个名为Compun的新基准，旨在评估像CLIP这样的开放词汇视觉-语言模型（VLMs）对复合名词（CNs）的解释能力。该基准通过使用描绘CN中各个单独名词的干扰图像，测试VLM在涉及CN的文本到图像检索任务上的能力。作者深入分析了CLIP模型对CN理解能力的局限性。此外，他们还提出了一种新的框架，该框架使用大型语言模型生成包含CN作为描述场景中对象的多样化标题，从而使CLIP在Compun基准上对CN的理解能力提高了8.25%。

Paper103 Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic Segmentation

本文提出了一种新的框架，称为关系感知的模内匹配（RIM），用于开放词汇语义分割（OVS）。RIM框架通过专注于图像到图像的匹配，减轻了先前方法中图像特征与类别标签之间误匹配的问题。RIM通过创建多个图像模态参考特征并将它们与区域特征通过关系感知排序分布进行匹配，从而改进区域分类。RIM的主要优势包括更好地对齐模内参考特征以及利用类间关系中的结构信息，从而实现更稳健的匹配。在三个基准测试上的测试表明，RIM大大优于先前最先进的方法，在PASCAL VOC基准测试中以超过10%的mIoU优势领先。

Paper104 FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models

这项研究探索了图像生成模型内部空间表示的潜在益处，除了图像生成之外，特别是对于像图像分割这样的密集视觉预测任务。研究引入了一种零样本、无需训练的方法，称为FreeSeg-Diff，它利用现有的CLIP、BLIP和Stable Diffusion模型来实现开放词汇分割，无需任何训练或像素级注释的要求。这个模型在Pascal VOC和COCO数据集上超过了多种基于训练的方法，并展示了与近期弱监督分割方法相比具有竞争力的结果。研究还显示，扩散模型的特征优于其他预训练模型。

Paper105 OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation

本研究作者提出了一种名为OV-Uni3DETR的新型3D目标检测系统。它为3D检测中的几个主要问题提供了解决方案：缺乏标注的3D数据、数据模态的变体以及非统一架构。OV-Uni3DETR系统优化了可用于训练的数据，允许检测已见和未见类别，并无缝整合来自不同模态的数据，即使是那些缺少传感器信息的数据。这也使得在测试过程中可以切换模态。它通过利用统一的多模态模型架构，接口来自不同场景、由各种传感器收集的数据。采用“循环模态传播”技术，利用2D语义知识和3D几何知识来桥接两种模态，从而加强了系统。该系统在多种情景下取得了高性能，超过其他方法6%以上，并且在使用仅RGB图像时也显示出等于甚至优于之前的基于点云技术性能。

Paper106 IDGenRec: LLM-RecSys Alignment with Textual ID Learning

这篇研究介绍了一种名为IDGen的新方法，用于利用大型语言模型（LLMs）进行生成式推荐。IDGen将每个项目表示为一个独特、简洁、语义丰富且与平台无关的文本ID，从而能够将个性化推荐无缝集成到自然语言生成中。这种方法与现有模型相比显示出有希望的结果，并暗示了一种潜在的生成式推荐基础模型的潜力。此外，研究还探讨了使用来自19个不同数据集的数据训练基础推荐模型的能力，并在6个未见过的数据集上进行测试。零样本性能与传统基于监督训练的一些模型相当，甚至更好。研究人员已经开源了他们的代码和数据。

Paper107 Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D

这篇文章讨论了将2D视觉模型扩展到3D数据时面临的挑战，这主要是由于3D或多视角数据的可用性有限。文章提出了一种名为Lift3D的新方法，该方法能够提升任何2D视觉模型以进行3D一致的预测。Lift3D训练预测在由像DINO和CLIP这样的少数视觉模型生成的特征空间上不可见的视角，然后推广到新的视觉操作符和任务，如风格迁移、超分辨率、开放词汇分割和图像着色。在许多情况下，这种方法超过了专门的最新方法，并且不需要特定任务的训练或特定场景的优化，因此它是一种零样本方法。

Paper108 Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation

这篇论文的主要贡献是引入了HOV-SG（层次开放词汇3D场景图）方法。该方法通过将预先存在的视觉-语言特征与密集几何地图配对，从而提高了机器人导航的能力，进而在3D中生成更精确的片段级地图。它还创建了一个嵌入开放词汇特征的3D场景图层次结构，包括楼层、房间和对象概念。重要的是，新提出的技术能够表示多层建筑，使机器人能够使用跨楼层的Voronoi图进行导航。HOV-SG在开放词汇语义准确度方面优于以前的模型，涵盖不同层次（对象、房间、楼层），同时将表示大小减少了75%。该方法已在现实世界环境中进行了测试，对于长距离语言条件下的机器人导航，展示了有希望的结果。

Paper109 OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation

本文的主要贡献是介绍了OVER-NAV，以及它对迭代视觉与语言导航（IVLN）技术带来的改进。OVER-NAV特别利用了大型语言模型（LLMs）和开放词汇检测器，以更好地利用未结构的导航记忆。该模型能够在不需要额外注释和重新训练的情况下，提炼关键信息并在多模态信号之间建立对应关系。此外，它还引入了一种结构化表示——编码的Omnigraph，以有效地整合多模态信息，这有助于精确导航。另外，OVER-NAV在同一框架内支持离散和连续环境。其卓越性能已通过大量实验得到证明。

Paper110 Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting

文章介绍了SemanticGaussians，这是一种基于3D高斯扩散的创新性开放词汇场景理解技术。其主要功能是将预训练的2D语义提炼到3D高斯中，提供了一种更灵活的投影方法，将预训练图像编码器的2D语义属性转移到3D高斯的新语义组件中。这种新技术省去了神经辐射场（NeRFs）所需的额外训练，并为快速推理建立了一个3D语义网络。其应用有助于提高语义分割、对象部分分割、场景编辑以及时空分割的性能。这种方法展示了其多功能性和有效性，支持各种下游任务。

Paper111 PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model

PSALM 是大型多模态模型（LMM）的一个扩展，旨在应对分割任务中的挑战。其主要特点包括一个掩膜解码器、一个能够处理多种分割任务的输入模式，以及跨多个任务和数据集进行联合训练的潜力。PSALM 在多个基准测试中取得了卓越的性能，同时在训练中未见过的任务上展示了零样本能力——朝着计算机视觉中的广义预训练（GPT）时刻迈进。该模型有望通过融入在自然语言处理中观察到的稳健视觉理解能力，来改变图像分割。代码和模型都是公开可用的。

Paper112 Exosense: A Vision-Centric Scene Understanding System For Safe Exoskeleton Navigation

这篇文章介绍了Exosense，这是一个基于视觉的系统，能够生成全局一致的高程地图，理解语义和地形可通行性数据，用于外骨骼导航。它包括一个与视觉SLAM位姿图相关联的弹性Atlas建图框架，以及来自视觉-语言模型（VLM）的开集词汇房间标签。该技术使用宽视场鱼眼多摄像头系统来加强外骨骼行走模式带来的问题。该系统在室内环境中构建精确的、富含语义的地图的能力及其对典型行走步态的鲁棒性得到了展示。它还展示了计划运动的潜力，旨在实现外骨骼的安全导航。

Paper113 Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models

文章介绍了开放词汇注意力图（OVAM），这是一种无需训练的文本到图像扩散模型方法，能够为任何单词生成注意力图。提出了一种使用OVAM的优化过程，以仅用一个注释找到能够创建准确注意力图的标记。这些标记在现有的最先进稳定扩散扩展中进行评估，使用这些优化标记的最佳表现模型在合成图像的伪掩模分割准确度上从52.1显著提升到86.6。这表明，OVAM能够在不重新训练或改变架构的情况下提升现有方法的性能。

Paper114 Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection

这项研究介绍了一种简单、高效的无需解码器的架构，用于开放词汇视觉关系检测，它改进了之前的方法，那些方法增加了复杂性并阻碍了端到端的训练。所提出的模型采用基于Transformer的图像编码器，将对象表示为标记，并隐式地建模它们的关系。它还包括一种注意力机制，通过识别可能的对象配对来提取关系信息。同时，还介绍了一种在混合对象和关系检测数据上训练此模型的单阶段方法。新方法在Visual Genome和GQA基准上达到了实时推理速度的同类最佳关系检测性能。此外，它还提供了零样本性能分析、消融研究以及现实世界的定性示例。

Paper115 Learning from Models and Data for Visual Grounding

研究人员提出了一个名为SynGround的新框架，该框架结合了数据驱动的学习和从大规模预训练模型中知识转移，以提高预训练的视觉-语言模型的视觉定位能力。该框架使用其他模型生成图像描述，这些描述既作为合成图像的提示，也作为合成文本的查询。一个开放词汇目标检测器被用来为这些图像和文本创建合成边界框。一个预训练的视觉-语言模型使用这些数据进行微调，大大提高了模型的定位能力，这一点通过在各个基准数据集上提高ALBEF的指向游戏准确率的结果得到了证明。

Paper116 Embedding Pose Graph, Enabling 3D Foundation Model Capabilities with a Compact Representation

本文介绍了一种创新的机器人空间理解方法——嵌入位姿图（EPG），它融合了基础模型和一个简单的3D表示。EPG既高效又可扩展，适用于各种机器人任务，如图像查询和语言引导导航。在重定位方面，EPG也优于现有方法。这项工作在使机器人高效地操作和理解大型3D空间方面具有重要意义。

Paper117 Find n’ Propagate: Open-Vocabulary 3D Object Detection in Urban Environments

这项研究旨在克服当前基于LiDAR的三维目标检测系统中的局限性，如限制性类词汇和昂贵的标注成本。在城市化环境中，采用开放词汇学习并结合预训练的视觉-语言模型，利用多传感器数据捕捉新实例。设计了四种基准解决方案，分为自上而下和自下而上两种方法，但它们存在一定的局限性。为了解决这些缺陷，引入了一种新的“查找并传播”方法，该方法通过贪婪框搜索器帮助渐进式检测新对象。它还使用远程模拟器减少对附近物体的偏见。实验结果显示，新对象召回率提高了53%，新对象类别的平均精度提高了3.97倍。源代码在补充材料中提供。

Paper118 AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents

本文介绍了AnySkill，这是一种用于在基于物理的环境中生成动作的新层次方法。AnySkill从一组基本动作中学习，这些基本动作是通过模仿学习进行训练的。该模型利用高级策略创建并整合这些动作，以响应开放文本指令。这种方法的一个独特特点是它使用基于图像的奖励来指导高级策略，从而避免了手动奖励工程。AnySkill能够为交互式人形代理生成自然的动作序列，甚至能够响应不同长度的未见指令，这使其成为第一种能够使用开放词汇学习交互式人形代理物理技能的方法。

Paper119 DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM

这篇文章提出了DetToolChain，这是一种新颖的提示方法，能够增强如GPT-4V和Gemini等多模态大型语言模型的零样本目标检测能力。该模型采用旨在帮助语言模型聚焦于区域细节、读取坐标并从场景上下文中进行推理的提示。DetToolChain进一步融入了一种检测思维链方案，将检测任务分解为更简单的部分，并规划了边界框精炼的进展。该方法显著提高了目标检测任务的性能，在MS COCO新类别集、RefCOCO验证集和D-cube描述目标检测全设置上分别提高了21.5%、24.23%和14.5%。

Paper120 CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation

这篇论文强调了一种名为CLIP-VIS的新型编码器-解码器网络的引入，该网络旨在使对比语言-图像预训练（CLIP）适应开放词汇视频实例分割。这个系统不需要实例类别和身份的注释。网络包括三个模块：类不可知掩膜生成、时序topK增强匹配和加权开放词汇分类。通过在多个视频实例分割数据集上的实验，CLIP-VIS展示了其有效性，尤其是在新类别上。当使用ConvNeXt-B作为骨干网络时，该模型在LV-VIS数据集的验证集上的AP和APn得分分别超过了OV2Seg 11.1%和23.9%。源代码和模型将通过GitHub公开提供。

Paper121 VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

这篇论文研究了在安全视觉导航中，利用大型语言模型（LLMs）进行零样本异常检测，并通过实时开放世界对象检测模型Yolo-World和专门的提示语进行支持。它介绍了一个框架，可以识别摄像头捕获视觉中的异常，并生成异常情况的音频描述。研究还利用了LLMs和开放词汇对象检测模型的优势，实现了动态场景切换，以平滑过渡不同场景，克服了传统视觉导航的局限性。此外，论文还分析了不同提示组件对性能的贡献，并对视觉可访问性的未来提供了见解。它旨在指导未来LLMs在视频异常检测和视觉-语言理解方面的应用。

Paper122 OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation

本文提出了一项关于开放词汇类别级物体姿态和尺寸估计的新研究。该研究涉及一个机器人代理，它使用任意新物体类别的人类文本描述来预测场景图像中物体的位置、方向和尺寸。为了辅助这一任务，引入了一个新的大规模逼真数据集OO3D-9D。由OmniObject3D派生而来，OO3D-9D提供了额外的注释来解决对称模糊问题，并且在该领域内是最大且最多样化的数据集。此外，还提出了一种新的框架，它使用预训练的DinoV2和文本到图像稳定扩散模型来推断目标实例的标准化物体坐标空间（NOCS）图。综合实验表明，这种新方法显著优于基线方法，并且能够有效地泛化到未见类别的真实世界图像。

Paper123 OpenOcc: Open Vocabulary 3D Scene Reconstruction via Occupancy Representation

本文提出了一种名为OpenOcc的新框架，用于移动机器人中的3D场景重建和开放词汇理解，采用神经辐射场。该框架使用占有表示来建模场景的几何结构，并通过体积渲染将预训练的开放词汇模型细化为一个3D语言场，以进行零样本推理。此外，本文还提出了一种新颖的语义感知置信度传播（SCP）方法，以解决提炼特征中的不一致性，最小化语言场表示的退化。这种新方法在3D场景理解任务中提供了有竞争力的结果，尤其是在处理小对象和长尾对象时。

Paper124 TAG: Guidance-free Open-Vocabulary Semantic Segmentation

TAG系统是一种针对计算机视觉挑战中的语义分割问题的新方法——特别是针对开放词汇分割，在这种分割中，图像像素需要被分类到不同的类别中，而无需进行大量训练或密集注释。该系统使用预训练模型，如CLIP和DINO，将图像分割成有意义的类别，并从外部数据库获取类别标签，以增强对新情景的适应性。它克服了无监督和开放词汇分割面临的挑战，例如需要用户提供文本查询进行指导以及无法为聚类分配类别标签等问题。该系统在高级测试中取得了令人印象深刻的结果：在PascalVOC上实现了+15.3 mIoU的改进。用于此的代码和数据访问将会向公众发布。

Paper125 MaskDiffusion: Exploiting Pre-trained Diffusion Models for Semantic Segmentation

摘要介绍了一种名为“MaskDiffusion”的创新方法，这是计算机视觉中用于语义分割的一种技术，它解决了诸如高标注成本、大量训练以及模型在处理不常见和新类别时遇到的挑战。该方法无需额外的训练或标注，与类似实践相比，它能获得更好的性能。它在处理开放词汇方面表现出更优越的性能，扩大了分割应用的范围。与其它无监督分割方法相比，其在性能上已经定量和定性得到提升，这一点通过在Potsdam和COCO-Stuff数据集上改进的指标可以得到证明。MaskDiffusion的代码和数据将公开可用。

Paper126 N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields

文章介绍了一种名为嵌套神经特征场（Nested Neural Feature Fields，简称N2F2）的新方法，该方法利用层次化监督学习具有不同粒度场景属性的特征场。这种方法允许根据物理尺寸、语义或两者灵活地定义层次结构，并使用一个2D类不可知分割模型来创建有意义的像素分组。然后，N2F2利用CLIP视觉编码器为这些片段创建与语言对齐的嵌入。通过使用不同的嵌套维度，CLIP嵌入使用延迟体积渲染在不同物理尺度上进行提炼。实验证明，这种方法在开放词汇的3D分割和定位任务中优于现有方法，展示了嵌套特征场的有效性。

Paper127 Unsupervised Collaborative Metric Learning with Mixed-Scale Groups for General Object Retrieval

本文介绍了一种新的无监督深度度量学习方法，称为混合尺度群的无监督协同度量学习方法（MS-UGCML）。该方法旨在学习不同尺度对象的嵌入。文章还提供了一组挑战，这些挑战是从COCO 2017和VOC 2007数据集中汇编而成的，以方便通用对象检索模型的训练和评估。通过在多个数据集上进行全面的评估，展示了MS-UGCML方法的有效性，对象级别的改进幅度高达6.69%，图像级别的改进幅度高达10.03%。此外，本文还对通用对象检索领域中出现的复杂性进行了全面研究。该方法的相关代码已公开提供。

Paper128 CoLeCLIP: Open-Domain Continual Learning via Joint Task Prompt and Vocabulary Learning

这篇论文探讨了开放领域中视觉-语言模型（VLMs）的持续学习（CL）问题，在这些领域中，模型需要不断更新并从来自已知和未知领域的多样化数据集中进行推理。研究指出了大型VLMs持续学习研究中的现有差距，其中大部分研究集中在单一领域和已知类别的封闭集场景。作者引入了一种名为CoLeCLIP的新方法，该方法利用CLIP模型学习一个开放领域的持续学习模型。这种方法克服了诸如大类相关性、领域差距以及遗忘零样本知识等挑战。通过在11个领域数据集上的测试，研究发现CoLeCLIP在开放领域持续学习方面优于现有方法。

Paper129 Generative Region-Language Pretraining for Open-Ended Object Detection

这项研究提出了一种新的生成式开放目标检测概念，用于在推理过程中没有确切对象类别知识的情况。研究者们提出了一种新的框架GenerateU，它以自由形式的方式检测密集对象并生成其对应的名字。他们重新利用了Deformable DETR进行区域提议生成，并引入了一种语言模型将视觉区域翻译成对象名称。研究者们还引入了一种新的评估方法，用于评估在自由形式检测任务中的性能。在实验中，GenerateU展示了强大的零样本检测性能，即使在推理过程中没有类别名称的知识，也在LVIS数据集上取得了与GLIP方法相当的结果。该框架的代码已公开可用。

Paper130 Do Visual-Language Maps Capture Latent Semantics?

文章提出了一种新的方法，用于分析使用视觉语言模型（VLMs）创建的地图的质量，重点关注查询性和一致性的属性。所提出的评估检查从嵌入中检索信息的能力以及它们有效表示抽象语义类的能力。这种方法还测量了表示的泛化特性。作者将这种方法作为开源基准提出，用于评估新的开放词汇地图表示。在对两种最先进的方法进行的分析中，结果显示OpenScene在两个编码器上均优于VLMaps，而LSeg在两种方法上均优于OpenSeg。

Paper131 Open-Universe Indoor Scene Generation using LLM Program Synthesis and Uncurated Object Databases

这篇研究介绍了一个系统，该系统可以根据文本提示生成室内场景，它在词汇和对象类别上具有灵活性。该系统利用预先存在的大型语言模型来合成描述对象及其空间连接的程序。与之前的室内场景生成系统不同，它不需要大量的3D场景数据集。它使用基于梯度的优化方案来确定对象位置，并使用视觉-语言模型从未注释且不一致对齐的网格数据库中检索3D网格。该系统在生成场景方面的性能优于其他在3D数据上训练的模型，并且优于最近一种基于语言模型的布局生成方法。

Paper132 GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping

研究人员设计了一个名为GaussianGrasper的系统，使机器人能够准确解释语言指令并据此执行物体操作。该系统特别针对了当前隐式场技术的局限性。它使用3D高斯溅射来将场景表示为一组高斯原语，采用基于图块的溅射技术，并使用有限的RGB-D视图集合。该系统还包括一个高效的特征蒸馏模块，用于提炼语言嵌入，以及一个法线引导的抓取模块，用于选择最佳的抓取位置。全面的现实世界实验已经证明了该系统在语言引导操作任务中的有效性。数据集和代码已公开提供。

Paper133 PosSAM: Panoptic Open-vocabulary Segment Anything

这篇论文提出了一种新的模型PosSAM，用于开放词汇的全景分割，它在一个一体化的框架中结合了Segment Anything Model (SAM) 和视觉语言CLIP模型的优势。PosSAM利用SAM的空间丰富特征进行实例感知的掩模生成，以及CLIP的语义判别特征进行实例分类。为了克服SAM的弱点，内置了局部判别池化（LDP）模块和掩模感知选择集成（MASE）算法。LDP使用类无关的SAM和类感知的CLIP特征，而MASE在推理过程中提升了开放词汇分类的性能。该模型在各种测试中均优于其他顶级表现模型，显示出在多个数据集上强大的泛化能力。在COCO到ADE20K和ADE20K到COCO的设置中，PosSAM以大幅优势超过了之前最佳方法。

Paper134 Renovating Names in Open-Vocabulary Segmentation Benchmarks

本文的主要贡献是提出了一个新的框架（RENOVATE），用于提高开放词汇分割模型中使用的名称的质量，实现了高达15%的相对改进，并提高了训练效率。翻新的名称还通过允许更精细的模型分析和更好地测量分类错误，改善了评估。此外，作者还将向研究社区提供几种流行分割数据集的代码和重新标注。

Paper135 Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization

文章提出了一种称为元提示与实例对比学习（MIC）的开放词汇目标检测（OVOD）方法，用于检测之前未遇到的新类对象。MIC解决了当前OVOD模型中的一些问题，这些模型往往在基础类别上过拟合，严重依赖额外数据，并且训练过程复杂。MIC使用了一种新类别浮现场景模拟来训练提示学习器，并引入了实例级别的对比策略，以提高类内紧致性和类间分离。所提出的MIC在不需要知识蒸馏、集成模型或额外训练数据的情况下，优于之前的最先进方法，展示了在新类别上的卓越泛化能力，这一点通过在COCO和Objects365上的显著性能提升得到了证明。

Paper136 OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments

这篇文章介绍了OpenGraph，这是首个专门为大型户外环境设计的开放词汇层次图表示。为了在复杂任务中实现机器人与人类的无缝交互，OpenGraph从视觉图像中提取实例及其描述，增强文本推理，通过将图像投射到激光雷达点云上，实现具有特征嵌入的3D增量以对象为中心的建图，并最终对环境进行分割以构建层次图。在SemanticKITTI数据集上进行测试时，OpenGraph的分割和查询准确率高于其他方法。OpenGraph的源代码已公开可用。

Paper137 Language-Grounded Dynamic Scene Graphs for Interactive Object Search with Mobile Manipulation

本研究提出了一种新方法——MoMa-LLM，它帮助移动操纵机器人自主地在大型未探索环境中执行长视野任务。MoMa-LLM模型使用大型语言模型，并结合了从开放词汇场景图获得的结构化表示，并与以对象为中心的动作空间交织。它是零样本、开放词汇，并可扩展到各种移动操纵和机器人家庭任务。MoMa-LLM的有效性在一个大型真实室内环境中的新颖语义交互搜索任务中得到验证，并与传统基线和最先进的方法进行了比较。结果显示，搜索效率显著提高，并应用于更抽象的任务。研究人员提供了他们的代码的公共访问。

Paper138 Learning Generalizable Feature Fields for Mobile Manipulation

文章介绍了一种新的场景级、可泛化的神经特征场——可泛化特征场（GeFF），它解决了移动操作中的一个开放性问题，即为导航和操作提供一个统一的表示。GeFF捕捉了操作中复杂的几何形状，并在实时中解决了导航的复杂性。它使用生成式新视图合成作为预训练任务，并通过CLIP特征蒸馏将丰富的场景先验与自然语言对齐。GeFF的有效性通过在四足机器人操纵器上的部署得到了证明，评估了其在动态场景中泛化到开放集对象以及在进行开放词汇移动操作期间的运行时间的能力。

Paper139 Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss

本文提出了Pseudo-OCR，一个旨在识别词汇外（OOV）单词的开词汇文本识别框架。本文的主要贡献有三点：

一个伪标签生成模块，该模块利用字符检测和图像修复生成伪OOV训练数据，独特地使用真实的字符和背景来更准确地模拟现实世界条件。
一种语义检查机制，有助于通过过滤掉缺乏有意义的语义的数据来减少伪数据中的噪声。
引入了一种质量感知的边缘损失方法，以增强伪数据的训练。这种创新的损失方法既考虑了基于边缘的组件来改善分类，也考虑了质量意识元素来惩罚真实和伪的低质量样本。

这些创新使得模型在八个数据集上的表现优于之前的最新基准，并在ICDAR2022挑战中获得了第一名。

Paper140 Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head

文章介绍了OmDet-Turbo，这是一个新的实时目标检测模型，它使用了基于端到端变压器的检测器（DETRs）。该模型采用了一种创新的高效融合头（EFH）模块，以改善先前模型中出现的性能瓶颈。OmDet-Turbo-Base通过应用TensorRT和语言缓存技术，实现了快速的处理速度，达到100.2帧每秒（FPS）。在零样本场景中，该模型在COCO和LVIS数据集上的表现几乎与当前最先进的监督模型持平。此外，它还在ODinW和OVDEval上设置了新的基准分数。OmDet-Turbo的快速推理速度和卓越性能使其成为工业应用中实时目标检测任务的最佳选择。

Paper141 A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition

这项研究介绍了一种名为多模态口腔面部神经音频（MONA）的静音语音接口系统，该系统推进了无声口头交流的发展。MONA使用创新的损失函数来提高无声语音识别，并利用仅音频数据集如LibriSpeech。论文还提出了一种称为大型语言模型集成评分调整（LISA）的评分调整方法，以增强识别准确性。结果显示，在各种数据集中，单词错误率（WER）显著降低。研究人员成功实现了首个非侵入式无声语音识别低于15% WER的实例，证明了无声语音接口作为自动语音识别替代品的可行性。研究成果缩小了无声和有声语音之间的性能差距，为各种情景下的人机交互提供了新的可能性。

Paper142 OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

文章介绍了一种新的场景中对象计数方法——OmniCount。该方法解决了先前策略的局限性，如手动示例输入以及不同类别需要多次遍历的问题。OmniCount利用预训练模型在一次遍历中计数多个对象类别，无需额外训练。该解决方案因其能够生成精确的对象掩模并利用“Segment Anything Model”中的点提示进行高效计数而脱颖而出。为了评估OmniCount，创建了一个新的基准测试OmniCount-191，该基准测试拥有一个前所未有的多标签对象计数字典。OmniCount在这个基准测试和其他测试中表现出色，超过了现有的解决方案。

Paper143 Exploring Robust Features for Few-Shot Object Detection in Satellite Imagery

这篇论文提出了一种在卫星图像中进行目标检测的方法，只需少量示例就能实现，使用户能够通过少量注释来指定目标类别。作者开发了一种基于两阶段架构的少量样本目标检测器，其中分类块被替换为一个基于原型的分类器，该分类器来源于大规模预训练模型。此外，原型根据可用的训练图像进行微调，以区分相似类别，从而提高性能。本研究还使用了两种适用于遥感应用的CLIP模型以及视觉和图像文本特征。结果显示，视觉特征优于视觉-语言模型。所开发的检测器在SIMD和DIOR数据集上的表现优于现有的监督学习和少量样本方法。

Paper144 Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities

本文介绍了EdgeVL，这是一个新的框架，用于适应大型视觉-语言（VL）模型，以便在边缘设备上高效使用传统和非传统的图像类型。EdgeVL集成了双模态知识蒸馏和量化感知对比学习，无需手动标注。它不仅保持了量化后特征质量，而且还提高了各种视觉模态的开词汇分类性能。测试结果显示，在多个数据集上准确度提高了15.4%，模型大小最多减少了93倍，这标志着首次成功尝试将这些模型适应于边缘设备。

Paper145 Emojinize: Enriching Any Text with Emoji Translations

本文介绍了Emojinize，一种无需人工输入即可将文本短语翻译成表情符号序列的方法。Emojinize利用大型语言模型根据上下文选择合适的表情符号，并通过组合多个表情符号表达复杂概念。一项用户研究发现，与人类挑选的表情符号翻译相比，Emojinize的表情符号翻译使掩盖词汇的可猜测性提高了55%，这表明表情符号提供了足够丰富的词汇来翻译各种各样的单词。这种翻译方法对于学习阅读的儿童、学习外语的成人以及有学习障碍的个体的文本理解可能有益。

Paper146 Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery

这篇文章介绍了“波派”，这是一种新的统一视觉-语言模型，旨在从遥感（RS）图像中高效地进行多源船舶检测。该模型解决了船舶外观多样性和复杂背景干扰的难题。它采用了一种跨模态图像解释工具、一种新的图像-指令-回答方法，以及一种知识适应机制，以更好地解释和应用遥感领域已有的视觉-语言知识。为了进一步优化检测过程，该系统集成了“分割任何模型”（SAM），实现了无需额外训练成本的像素级船舶分割。该模型在新型数据集的实验应用中表现出色，使其在零样本多源船舶检测方面优于现有方法。

Paper147 Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision

本文的主要贡献是提出了一种新颖的多粒度跨模态对齐（MGCA）框架，用于从文本监督中学习开放词汇的语义分割。MGCA旨在有效地弥合当前技术在粒度差异上的不足，确保学习像素级对齐以及对象级和区域级对齐。该框架在图像-文本对上采用伪多粒度语义对应关系，并利用硬采样策略进行细粒度的跨模态对比学习。此外，论文还引入了一种自适应语义单元，以解决现有群组预测单元和像素预测单元在下游分割中的缺陷，尤其是过分割和欠分割问题。所提出方法的有效性和效率通过其在当前最先进方法上的显著改进得到了证明。

Paper148 MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting

这篇文章介绍了MOKA（标记开放词汇关键点可供性）系统，该系统使用视觉语言模型（VLMs）来解释和执行由自然语言描述指定的机器人任务。MOKA从VLMs生成预测并将其转化为现实世界环境中的机器人动作。为了实现这一点，研究团队提出了一种将预测转化为VLM可以解决的视觉问答问题的方法。该系统还使用机器人经验进行上下文学习和策略提炼，以提高性能。文章通过使用日常语言描述的各种操作任务来评估MOKA的效率。

Paper149 Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition

该研究专注于基于CLIP的视频学习者在未见过视频领域的泛化能力。研究者使用一种名为XOV-Action的新基准，对五种表现最佳的基于CLIP的视频学习者进行了全面评估，这个基准是为了跨领域开放词汇动作识别而创建的。结果显示，现有方法在陌生的视频领域表现出有限的性能，突显了未来可能面临的挑战。该研究还引入了一种新的场景感知的视频文本对齐方法，旨在将视频表示与场景编码文本表示分离，并旨在学习场景不可知的视频表示，以实现跨多种领域的动作识别。大量的实验证明了新方法的有效性。该基准和相关代码可在网上获取。

Paper150 Benchmarking Segmentation Models with Mask-Preserved Attribute Editing

这项研究提出了一种评估复杂场景中分割模型鲁棒性的新方法，考虑了局部和全局属性变化。作者开发了一个保持掩膜属性的编辑流程，可以在控制结构信息的同时调整真实图像的视觉属性，使得可以先前的分割标签得到重用。他们建立了一个包含对象和图像属性的基准，评估了多种语义分割模型对这些变化的鲁棒性。他们发现局部和全局属性变化都会影响性能，不同模型类型对变化的敏感性不同。研究强调了在分割模型鲁棒性评估过程中考虑局部属性的重要性。他们工作的代码已经公开可用，以供进一步的研究和应用。

Paper151 Multi-modal Attribute Prompting for Vision-Language Models

这篇研究的作者提出了一种多模态属性提示（MAP）方法，用以提高预训练的视觉-语言模型（VLMs）在少样本情境下的性能。MAP方法通过专注于多模态属性特征，而不是仅仅依赖于全局文本和图像表示，来增强如CLIP这样的模型。该方法采用文本和视觉属性提示，并结合属性级别的对齐，以更有效地捕捉视觉属性并增强跨模态对齐的鲁棒性。这种新颖的方法提高了VLM对未知图像类别和未见类别的适应能力。在11个数据集上对MAP方法进行测试，结果显示与现有方法相比，其结果令人鼓舞。

Paper152 DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments

研究人员创建了一个新的数据集，即动态环境下的开放词汇零样本对象导航数据集（DOZE），以克服现有数据集中存在的限制和不一致性问题，这些数据集用于开发零样本对象导航（ZSON）算法。DOZE包括十个高保真度的3D场景，以及超过18,000个模仿现实世界情景的任务。其独特特点包括存在多个移动的人形障碍物、开放词汇对象、具有不同属性的对象以及文本提示。此外，与旧数据集不同，DOZE具有检测代理与移动障碍物之间碰撞的独特能力，允许分析代理在动态环境中的避障能力。作者在DOZE上测试了四种不同的ZSON方法，揭示了现有技术在导航效率、安全性和对象识别准确性方面的潜在改进领域。

Paper153 MOSAIC: A Modular System for Assistive and Interactive Cooking

这项研究介绍了MOSAIC，一种新的模块化架构，用于家庭机器人，能够与人类用户协作完成复杂的任务。MOSAIC利用大规模预训练模型来处理通用任务，如语言和图像识别，同时实现简化的模块来控制特定任务。它在识别日常物品、解释自然人类语言以及与多个机器人协调方面表现出色。在60项端到端的协作烹饪试验中进行了测试，涉及两个机器人和一个人类用户，实现了68.3%的任务完成率和91.6%的子任务完成率。此外，还分析了MOSAIC的局限性，并提出了这一领域未来的挑战。

Paper154 Like-minded, like-bodied: How users (18-26) trust online eating and health information

该论文揭示了美国和印度18至26岁年轻网民的社交媒体和饮食习惯之间的联系。参与者经常通过展示全面健康的表现和社会理想化的身体形象，来描绘一种“美好生活”的画面，在此过程中不知不觉地养成了不规律的饮食习惯。他们重视个人见证，并倾向于尝试那些分享相似信仰和身体状态的创作者提供的内容和小贴士。然而，这种方式忽视了概率思维，并可能带来潜在的危害。研究发现，参与者的社交媒体动态不仅影响他们，而且以一种复杂、非线性的方式反映了他们自己的健康观念。作者建议，在考虑年轻人的社会背景下来应对网络上不规律饮食习惯的泛滥。

Paper155 Implicit Bias of Next-Token Prediction

该研究检查了在大型语言模型训练过程中下一个标记预测（NTP）的过程，并研究了当NTP训练损失达到其下限时，基于梯度的优化器是否表现出偏差。研究结果显示了在NTP中梯度下降可以达到其下界的条件。它还发现，当参数被投射到适当的数据子空间时，参数会收敛到一组线性方程的唯一解。该研究有助于理解使用NTP训练的模型的优化、泛化和鲁棒性原则，并为未来的研究开启了机会。

Paper156 Retrieval is Accurate Generation

这篇文章介绍了一种生成文本的新方法，即从支持文档中选择上下文感知的短语，而不是像标准语言模型中那样使用独立的词汇。这个过程在确定训练预言机时带来了挑战，因为文本分割的可变性和片段可以检索的来源。这个问题通过使用语言启发式来初始化训练预言机，以及用于预言机引导的迭代自我强化过程来解决。最终模型在各种任务上超越了标准语言模型，提高了准确性和文本生成质量。例如，OpenbookQA的准确率提高了近13%，文本生成的MAUVE得分提高了近39%。该模型在性能和延迟方面也优于几个检索增强的基线。

Paper157 CARTE: Pretraining and Transfer for Tabular Learning

这篇论文提出了一种新的神经架构，名为CARTE（表格条目的上下文感知表示），用于表格的迁移学习。CARTE不需要像寻找对应关系或实体匹配那样的数据整合，这使得它可以在非结构化数据上进行预训练。它采用表格数据的图表示来处理具有各种列的表格，使用条目和列名称的字符串嵌入来处理开放词汇，并使用图注意力网络来将条目与列名称和相邻条目进行上下文化。基准测试表明，CARTE的性能优于许多现有模型，包括表现最佳的基于树的模型，并支持具有不匹配列的表格之间的联合学习。因此，CARTE为表格数据的大型预训练模型铺平了道路。

Paper158 OpenSUN3D: 1st Workshop Challenge on Open-Vocabulary 3D Scene Understanding

这段报告的主要贡献包括提供了在OpenSUN3D Workshop上举办的挑战赛的概述，该研讨会是与ICCV 2023一致的。研讨会旨在提供一个平台，以研究和讨论与开放词汇3D场景理解相关的各种任务。报告中提供了关于挑战赛、其数据集、评估过程以及获胜方法的简短描述。以下是中文翻译：

本报告的主要贡献是对在OpenSUN3D研讨会（与ICCV 2023并行）上举办的挑战赛进行了概览。该研讨会旨在提供一个平台，用于探讨和辩论与开放词汇3D场景理解相关的多项任务。报告中提供了挑战赛的信息、数据集、评估程序以及获胜方法的简要描述。

Paper159 Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models

文章介绍了“EEVE-Korean-v1.0”，这是一个针对大型语言模型（LLMs）的韩语版本，旨在改善非英语文本的处理，这些文本通常在使用以英语为中心的模型时效率低下。作者引入了一种针对非英语文本处理的高效且有效的词汇扩展（EEVE）方法。这种方法优于之前的尝试，之前的尝试需要数万亿的训练标记，而此方法仅需20亿。截至2024年1月，他们的模型“EEVE-Korean-10.8B-v1.0”在Open Ko-LLM排行榜上超过了大多数指令调优的LLMs，成为开源社区中评分最高的韩语预训练模型，根据Hugging Face的排行榜。这些模型已经在Huggingface上开源，以造福开源研究社区。

Paper160 Generalizable Semantic Vision Query Generation for Zero-shot Panoptic and Semantic Segmentation

这项研究专注于零样本全景分割（Zero-shot Panoptic Segmentation, ZPS）这一具有挑战性的任务，它可以识别前景实例和背景物体，而不需要从未见过的类别中训练图像。研究者们提出了一种名为条件性标记对齐与循环转换（Conditional tOken aligNment and Cycle trAnsiTion，简称CONCAT）的方法，以帮助泛化未见过的类别。CONCAT首先训练一个特征提取器，以产生目标查询，将语义查询与CLIP视觉CLS标记对齐。然而，由于未见过的类别不可用，因此需要生成器来合成伪视觉查询。这涉及到通过语义嵌入描述细粒度的视觉细节。研究者们提议使用语义-视觉和视觉-语义来训练生成器。该方法相较于现有最佳结果，实现了5.2%的hPQ提升，测试速度提高了两倍，并在感应式ZPS和开放词汇语义分割中产生了积极结果。

Paper161 A Touch, Vision, and Language Dataset for Multimodal Alignment

这项研究引入了一个新的数据集，将基于触摸的数据融入多模态生成语言模型中，同时还提供了一个用于触摸-视觉-语言对齐的训练模型。该数据集收集了44K个视觉-触摸对，并带有英文语言标签，其中绝大多数是来自GPT-4V的文本伪标签。为文本生成设计的触摸-视觉-语言模型在分类准确性和视觉-触觉理解方面相较于现有方案有显著提升。该模型及相应的数据集已公开供大家参考。

Paper162 Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with Queryable Objects and Open-Set Relationships

Open3DSG是一种无需标注场景图数据即可预测3D场景图的新方法。通过将3D场景图预测骨干网络的特征与2D视觉语言模型的特征空间共同嵌入，它能够以零样本的方式从3D点云中预测3D场景图。这种方法是第一种能够预测开放词汇对象类别和开放集关系的方法，这些类别和关系不受预定义标签集的限制。因此，它可以在预测的3D场景图中表示罕见和特定的对象及其关系。实验已经证明了它在预测任意对象类别及其复杂互对象关系方面的有效性。

Paper163 Cross-Attention Fusion of Visual and Geometric Features for Large Vocabulary Arabic Lipreading

本文提出了一种针对阿拉伯语唇读的新方法，使用跨注意力融合来结合个人口腔区域的视觉和几何特征。该方法在新的野外阿拉伯语唇读（LRW-AR）数据集上进行测试，该数据集包含20,000个视频，分为100个单词类别。该方法在识别阿拉伯语单词时显示出良好的有效性和鲁棒性，展示了在阿拉伯语中运用唇读技术的潜力，这个领域有着巨大的未来研究机会。

Paper164 Verifiably Following Complex Robot Instructions with Foundation Models

文章介绍了一个名为语言教学基础运动规划（LIMP）的系统，该系统使机器人能够遵循人类用自然语言给出的复杂和详细的指令。该系统使用基础模型和时间逻辑根据给定的指令创建语义图，并使机器人能够遵循这些命令且可验证。与之前基于基础模型的系统不同，LIMP提供了一个透明的指令解释，使机器人的行为能够与预期的人类指令保持一致。LIMP的性能在三个现实世界环境中进行了演示，使用了一套35个复杂的时间和空间指令，展示了在新领域中的通用性和易于部署。实验表明，LIMP能够将开放词汇参考与空间相关联，并创建符合约束的计划，在90%的对象目标导航和71%的基于移动操纵的指令中达到目标。

Paper165 Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment

这篇论文专注于提升对比语言-图像预训练（CLIP）基础模型在遥感（RS）和医学影像分类任务中的性能。作者提出了一种两阶段方法，包括对CLIP进行稳健的微调以处理分布偏移，以及将遥感模态编码器进行跨模态对齐，以扩展模型的零样本能力。他们的方法在多个遥感基准数据集上取得了显著的性能提升，无需文本描述、特定任务的参数或从头开始训练，并且没有出现灾难性遗忘。

Paper166 Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision

本文介绍了Uni-OVSeg，一种新颖的弱监督开放词汇分割框架。作者展示了一种独特的方法来克服限制性注释的挑战，因为他们提议使用独立的图像-掩模和图像-文本对。通过使用CLIP嵌入空间，预测二值掩模并关联相应实体。为了克服对应关系中的固有噪声，他们建议使用大型视觉-语言模型和设计的多尺度集成。与仅基于文本的弱监督方法相比，他们的方法在ADE20K数据集上实现了15.5%的mIoU提升，并且在PASCAL Context-459数据集上甚至超过了完全监督的方法。

Paper167 InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

这段研究介绍了一种通过在由扩散模型生成的合成数据集上进行训练来提高目标检测的新方法。作者将一个实例级接地头整合到一个预训练的生成扩散模型中，然后训练它以使文本与模型的区域视觉特征对齐。这种增强版本，名为InstaGen，可以作为数据合成器来增强目标检测器，通过使用其生成的样本。结果显示，其性能优于现有方法，特别是在开放词汇和数据稀疏的场景中。实现该模型的代码已在项目页面上提供。以下是翻译：

本研究提出了一种新方法，通过在由扩散模型生成的合成数据集上进行训练来提升目标检测能力。作者将实例级定位头整合进一个预训练的生成扩散模型中，并训练其对齐文本与模型的局部视觉特征。这一增强版本被称为InstaGen，可用作数据合成器，通过使用其生成的样本来提升目标检测器。实验结果显示，其表现优于现有方法，尤其在开放词汇和数据稀疏的情况下。实现该模型的代码已在项目页面公开。

Paper168 Giving Robots a Voice: Human-in-the-Loop Voice Creation and open-ended Labeling

这项研究开发了一种工具，用于创建与特定机器人图像相匹配的机器人声音。通过大规模的人类实验，参与者被要求调整机器人声音，以对应175张不同的机器人图片，从而创建一个对机器人属性进行评分的分类法。然后，研究人员使用这个数据库来预测未见机器人的最佳声音。提供了一个网络界面，以帮助工程师定制机器人声音，展示了认知科学和机器学习如何共同工作，以开发工程工具。

Paper169 Open-Vocabulary Calibration for Vision-Language Models

这项研究通过提示学习的背景，解决了在微调视觉-语言模型（VLMs）中被忽视的信心校准问题。研究发现现有的校准方法在解决这一问题上是不足的，尤其是在开放词汇设置中。为了解决这些问题，论文提出了一种称为距离感知校准（DAC）的方法，该方法根据预测文本标签与基础类别之间的差距来调整温度。DAC的有效性通过在11个不同的下游数据集上使用7种不同的提示学习方法进行实验得到确认，同时没有牺牲推理速度。

Paper170 OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding

文章介绍了OV-NeRF系统，该系统利用预训练的视觉和语言模型来增强神经辐射场（NeRFs）中语义场的学习。为了克服来自对比语言-图像预训练（CLIP）的噪声和视图不一致的语义问题，作者提出了两种策略：一种单视图方法称为区域语义排序（RSR）正则化，它使用2D掩膜提案来细化每个训练视图的语义；另一种是跨视图策略，名为跨视图自我增强（CSE），它利用从语义场本身生成的语义来训练它。实验结果显示，OV-NeRF在Replica和Scannet数据集上大幅优于现有方法，展示了其在不同CLIP配置下的鲁棒性。

Paper171 LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors

这篇论文介绍了DVDet，一种描述增强型开放词汇检测器，它通过利用视觉语言模型（VLMs）将视觉嵌入与对象部分的精细文本描述对齐，从而改进开放词汇目标检测。DVDet通过使用条件上下文提示和分层文本描述符来实现这一点。这使得区域文本对齐更加准确，并总体上提高了开放词汇检测训练的效果。此外，它还使用大型语言模型作为一个隐式的知识库，以迭代地优化以视觉为导向的文本描述符。在多个大型基准测试的广泛实验中，DVDet已被证明超越了现有的最先进方法。

Paper172 Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced Auditory Experience

这篇工作介绍了“听、聊、编辑”(LCE)，这是一种新的多模态声音混合编辑器，它可以通过用户提供的文本指令来调整单个声音源。LCE集成了一个用户友好的聊天界面，并且可以在不分离的情况下编辑混合中的多个声音源。用户的输入由大型语言模型解释，形成语义过滤器来编辑音频混合。为了进行全面的编辑任务，如提取、音量控制和移除，已经创建了一个包含超过16,000小时、超过10万个声音混合的数据集。实验结果显示，在所有编辑任务中声音质量都有显著提升，即使在零样本场景下，不同数量和类型的声音源也表现出令人印象深刻的性能。

Paper173 FROSTER: Frozen CLIP Is A Strong Teacher for Open-Vocabulary Action Recognition

这篇文章介绍了一种名为FROSTER的新框架，用于开放词汇动作识别，旨在克服直接将CLIP模型应用于这类任务时因缺乏时态信息而遇到的挑战。FROSTER采用了一种残差特征蒸馏方法，以保持CLIP的泛化能力，并有效地将其适应于动作识别任务。这种方法使用冻结的CLIP模型来监督特征学习，以提取视频特定的特征。在动作识别基准测试中评估FROSTER时，结果显示其在所有数据集上均取得了最先进的性能。

Paper174 YOLO-World: Real-Time Open-Vocabulary Object Detection

本文介绍了“YOLO-World”，这是广泛使用的You Only Look Once（YOLO）检测器系列的一个创新扩展。这种新方法成功地解决了YOLO检测器依赖预定义和训练的对象类别的局限性。YOLO-World通过视觉-语言建模和在大型数据集上的预训练，集成了开放词汇检测能力。它使用了一种新提出的可重参数化的视觉-语言路径聚合网络（RepVL-PAN）和区域-文本对比损失，以简化视觉和语言信息之间的交互。该方法成功高效地检测各种对象，并在检测准确性和速度方面超过了多种最先进的方法。此外，它在物体检测和开放词汇实例分割等任务上也表现出色。

Paper175 Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors

这篇文章讨论了Vermouth的发展，这是一个新的统一视觉感知框架，使用了扩散模型。该框架集成了一个预训练的稳定扩散（SD）模型，一个用于整合层次表示的U型头，以及一个判别模型适配。Vermouth的核心特性包括在不同时间步和阶段变化感知粒度。结果表明，扩散模型不需要复杂的解码器就可以成为有效的表示学习器。此外，Vermouth在零样本基于草图图像检索、少样本分类和开放词汇语义分割任务中已被证明优于比较模型。因此，论文强调了扩散模型在信息丰富和健壮的视觉表示方面的潜力。

Paper176 Spatial-Aware Latent Initialization for Controllable Image Generation

这篇文章提出了一种新方法，用于提高文本到图像扩散模型对文本输入中提供的空间布局指令的校准能力。研究人员发现，在去噪过程中引入“空间感知初始化噪声”可以提供更好的布局控制。他们发现，包含空间信息的倒置参考图像使得生成的图像具有相似的布局。他们创建了一个可适应的框架，为每种布局条件创建定制的空间感知初始化噪声。通过整合这种方法，现有扩散模型中的布局指导效果得到了显著提高，且没有牺牲内容质量。该方法在Stable Diffusion模型和COCO数据集上进行了测试，结果显示出了积极的效果。

Paper177 Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support

研究介绍了Taiyi-Diffusion-XL，这是文本到图像模型的一个重要进展，支持中文和英文两种语言。通过扩展CLIP和Stable-Diffusion-XL的功能，该模型提高了图像生成能力，特别是针对中文语言应用。显著特点包括通过融入汉字有效扩展词汇量，绝对位置编码的扩展以及丰富的文本提示。实证结果显示，该模型在双语图像文本检索中表现出色，并且在双语图像生成方面优于之前的同类模型。这项研究为扩大多模态研究中语言多样性做出了实质性贡献，开发的模型已公开供大家使用。

Paper178 Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks

该研究介绍了Grounded SAM，这是一个利用Grounding DINO增强分割任何模型（SAM）的工具。该工具允许在任何区域进行检测和分割，使任务能够基于任意的文本输入进行。通过这种方式，Grounded SAM结合了多种视觉模型，为更广泛的应用打开了大门。例如，它可以与BLIP等模型配合使用，形成自动注释管道，与Stable-Diffusion整合进行可控的图像编辑，或者与OSX合作进行可提示的3D人体运动分析。Grounded SAM在开放词汇基准测试中也表现出色，特别是在SegInW零样本基准测试中，其平均AP得分达到了48.7。

Paper179 True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning

文章介绍了TWOSOME，这是一个新颖的在线框架，它将强化学习与大型语言模型（LLMs）相结合，以更高效地解决决策任务。这种技术不需要任何先前的数据集或对环境的了解。TWOSOME通过查询每个有效动作与LLM的联合概率来形成行为策略，然后使用两种归一化方法和四个提示设计原则来保持策略的稳定性。还设计了一个参数高效的训练架构，其中演员和评论家共享一个带有低秩适配器（LoRA）的LLM，通过PPO进行更新。与传统的RL方法PPO以及提示调整方法SayCan相比，TWOSOME在两个不同环境中显示出显著更好的样本效率和性能。它还表现出卓越的泛化能力，对于未见过的任务，在在线PPO微调期间没有显著损失LLM的原有能力。

Paper180 SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering

本文提出了第一个针对开放领域口语问答（openSQA）问题的端到端框架，名为语音密集篇章检索器（SpeechDPR）。与之前的方法不同，该系统从口语档案中检索含有潜在答案的篇章。SpeechDPR系统通过从非监督自动语音识别（UASR）和文本密集检索器（TDR）级联模型中提炼知识，以句子级别学习语义表示，从而无需手动转录的语音数据。初步实验表明，这种方法对语音识别错误更加稳健，其性能与UASR和TDR级联模型相当，甚至在UASR性能不佳时表现更好。

Paper181 Exploring Simple Open-Vocabulary Semantic Segmentation

这篇文章介绍了一种名为S-Seg的新型开放词汇语义分割模型，该模型减少了对于图像级视觉语言模型、真实掩膜和自定义分组编码器的依赖。它使用伪掩膜和语言来训练一个MaskFormer，并且可以使用公开可用的图像-文本数据集进行训练。S-Seg在之前的模型基础上进行了改进，通过直接训练像素级特征和语言对齐。在测试中，S-Seg在不需要微调的情况下，在各种数据集上均显示出有效性，并且在结合自我训练后，其表现持续提升。此外，它还可以随数据扩展，使其成为未来语义分割研究中有潜力的有益工具。

Paper182 OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

文章介绍了OK-Robot，这是一个开源知识库机器人框架，它结合了视觉-语言模型进行物体检测，导航原语进行移动，以及抓取原语进行物体操纵。OK-Robot系统不需要训练，是为取放操作而设计的。在10个真实家庭环境中对OK-Robot进行评估，结果显示在开放式的取放任务中成功率为58.5%，在开源词汇移动操纵（OVMM）中创下了新标准，其性能几乎是之前工作的1.8倍。在无杂乱环境中测试时，OK-Robot的性能提升至82%。这项研究强调了在将开源知识系统如VLMs与机器人模块集成时，细致入微的细节发挥着关键作用。

Paper183 HomeRobot Open Vocabulary Mobile Manipulation Challenge 2023 Participant Report (Team KuzHum)

文章的主要贡献是对 NeurIPS 2023 HomeRobot: 开放词汇移动操作（OVMM）挑战的强化学习基线进行了改进。他们提出了一个更精确的语义分割模块和一个改进的位置技能策略，以及一个高级启发式方法。这些进展使整体成功率提高了2.4%，达到基线的七倍，部分成功率提高了8.2%，比基线好1.75倍。凭借这些改进，他们的代理在挑战的模拟和现实世界阶段均获得了第三名。

Paper184 UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation

本文介绍了UniM-OV3D，一个统一的多模态3D开放词汇场景理解网络。它通过将图像、语言和深度信息与点云相结合，增强3D场景理解，这比现有工作发展得要远得多。它使用分层点云特征提取模块，更有效地整合全局和局部特征。该网络还使用分层3D标题对和几何约束来提高点语义表示。该系统在多个室内外基准测试中，包括ScanNet、ScanNet200、S3IDS和nuScenes，在开放词汇语义和实例分割方面优于现有先进模型。

Paper185 OMG-Seg: Is One Model Good Enough For All Segmentation?

本研究提出了一种新的模型OMG-Seg，它解决了传统上由不同模型处理的多个分割任务。OMG-Seg非常全面，因为它能够处理图像语义、实例、全景分割，以及视频对应任务和特殊任务，如开放词汇、提示驱动和交互式分割。这是第一个能够处理所有这些任务并展现出可接受性能的模型。这种基于转换器的编码器-解码器架构使用特定任务的查询和输出，证明了在各种任务和数据集上都能高效运行，同时最小化了计算和参数开销。通过在共同训练期间对任务间相关性进行广泛评估，展示了该模型处理超过十个不同分割任务的能力。代码和模型在线上可供使用。

Paper186 Question-Answer Cross Language Image Matching for Weakly Supervised Semantic Segmentation

本文提出了一种新颖的框架，名为问题-答案跨语言-图像匹配（QA-CLIMS），用于改进弱监督语义分割（WSSS）。现有的用于WSSS的类激活图（CAM）方法常常错误地激活背景区域并且没有完全激活目标对象区域。QA-CLIMS框架通过利用视觉-语言基础模型来纠正这些问题。该模型使用视觉问答（VQA）和精心设计的问答提示来生成一个适应输入图像的目标对象和背景的语料库。然后，它使用区域图像文本对比（RITC）网络和对比学习将这些与创建的语料库进行比较。这种方法利用了丰富的文本信息，并允许模型生成具有更准确对象区域的高质量CAM。广泛的测试显示在PASCAL VOC 2012和MS COCO数据集上具有最先进的性能。作者提供了所提方法的代码。

Paper187 Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation

文章提出了一种新的开放词汇视频实例分割（VIS）方法，称为BriVIS，该方法试图纠正先前方法因忽略帧间相关性而产生的问题。BriVIS方法将帧级别的实例表示通过布朗桥连接起来，建模实例动态，以实现视频与文本之间更精确的对齐。该模型使用时间实例重采样器（TIR）和桥接文本对齐（BTA）来增强这些表示，并与类别文本进行对齐。BriVIS在视频分割器MinVIS上运行，性能显著优于之前的现有最佳模型。例如，在BURST数据集中，BriVIS比之前的最佳成绩提高了49.49%。

Paper188 POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images

研究表明了一种从2D图像预测3D语义体素占用图的方法，这使得能够对自由形式语言查询进行3D定位、分割和检索。作者创建了一个用于3D语义占用预测的模型，该模型包括一个2D-3D编码器、占用预测和3D-语言头，输出一个密集的体素图，其中包含用于各种任务的3D定位语言嵌入。为了训练这种架构，开发了一种三模态自监督学习算法，使用三种模态：图像、语言和LiDAR点云，无需3D手动语言注释。该模型的有效性在不同的任务上进行了测试，包括零样本3D语义分割、3D定位和自由形式语言查询的检索，使用的数据集包括nuScenes的扩展版本等。

Paper189 OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed Reality

这篇论文研究了使用开放词汇视觉-语言模型在增强现实中自动放置对象的方法。通过全面的评估，引入并确定了一种新的最先进的方法——OCTO+。同时，还引入了一个新的基准，它允许对增强现实中的虚拟对象放置进行自动评估，从而无需进行成本高昂的用户研究。研究发现，OCTO+ 在超过70%的情况下能够成功地将对象放置在有效区域内，超过了其他方法在各种性能指标上的表现。

Paper190 Robotic Imitation of Human Actions

这篇论文提出了一种新颖的模仿学习方法，帮助机器人模拟人类动作，尽管存在视角和身体结构差异。它使用单个人类演示来提取关于任务的信息，然后进行概括和复制。值得注意的贡献是整合了两种先进的方法——用于时间信息抽象的扩散动作分割模型和用于空间相关信息的开集词汇对象检测器。此外，该方法还细化了提取的数据，并使用符号推理结合逆向运动学来构建机器人的行动计划，使其能够成功模仿所展示的动作。

Paper191 MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation

本文提出了一种新颖的开集词汇3D实例分割方法。与之前依赖局部指标和2D模型的方法不同，作者提出了一种新的指标，称为视图一致性率，以更好地利用多视角观测。这涉及构建一个全局掩码图，并对那些显示高视图一致性的掩码进行迭代聚类，从而生成不同的3D实例。该模型不需要任何训练，并且在公开可用数据集上进行的测试中优于现有方法。

Paper192 Domain Adaptation for Large-Vocabulary Object Detectors

这项研究提出了一种新技术，称为知识图谱蒸馏（KGD），旨在提高大词汇量目标检测器（LVDs）的性能。KGD技术利用CLIP模型中的底层知识图谱，帮助LVDs更好地适应不同的下游领域。这个过程包括两个主要阶段：首先使用CLIP提取知识图谱，然后将该图谱封装到LVDs中。这使得跨领域目标分类更加准确。KGD还可以独立提取视觉和文本知识图谱，为对象定位和分类任务提供额外帮助。实验结果表明，KGD显著优于当前最先进的方法。

Paper193 PersianMind: A Cross-Lingual Persian-English Large Language Model

本文介绍了波斯Mind，这是一个开源的双语大型语言模型，能够在波斯语和英语两种语言中表现出色。该模型在之前的开源模型（如LLaMa）的基础上进行了改进，通过训练近20亿个波斯语标记的大型数据集，并扩展了包含10,000个波斯语标记的词汇表。在波斯语中，它的性能与闭源的GPT-3.5-turbo相似。研究表明，该模型在保留英语知识和使用迁移学习在语言之间有效迁移任务知识方面是有效的。

Paper194 Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models

本研究的主要贡献是提出了一个名为“Patchscopes”的框架，用以提升对大型语言模型（LLMs）内部表示的理解。Patchscopes不仅有助于解释LLMs在人类语言中的行为，还能解决先前模型的相关缺陷，例如对早期层的检查不足或表达性的缺乏。这个框架统一了之前的检查方法，并允许新的可能性，例如利用更强大的模型来理解较小模型的表示，或者在多跳推理中进行错误校正。

Paper195 Unpacking Human-AI interactions: From interaction primitives to a design space

这篇论文为人类与人工智能交互的半形式化设计空间的发展做出了贡献。主要贡献是开发了一套交互原语，这些原语是用户与人工智能系统之间通信的构建模块。这些原语被组合成交互模式，用于在人类与人工智能/机器学习模型之间交换信息。论文还介绍了与相关框架、指南和分类法有关的文献综述，这有助于定义描述信息交换的词汇。基于这个派生的词汇，提出了一种用于人类与人工智能交互的消息传递模型。交互原语和模式可以用作设计工具，以创建新系统并跟踪实现问题和关注点。

Paper196 PIXAR: Auto-Regressive Language Modeling in Pixel Space

该研究介绍了PIXAR，这是第一个基于像素的自动回归大型语言模型（LLM），能够生成文本，挑战了类似模型只能执行判别性任务而不能生成文本的限制。PIXAR仅拥有一个解码器，却能与先前的编码器-解码器模型相媲美，同时还能胜任自由形式的生成任务。论文指出了由于最大似然目标，将文本生成为非噪声图像的挑战，并通过建议一个对抗性预训练阶段提供了解决方案。这一步骤提高了PIXAR的可读性和准确性，使其在文本生成任务上与GPT-2相当。结果显示，挑战了传统符号输入表示的必要性，并为创建仅基于感知输入操作的开放词汇LLM开辟了可能性。

Paper197 Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

本研究介绍了Open-Vocabulary SAM，这是一个集成的框架，它将Segment Anything Model（SAM）的分割能力与CLIP模型的零样本识别能力相结合。该模型利用两个知识迁移模块，即SAM2CLIP和CLIP2SAM，使它们能够相互学习。在多种分割和识别任务中，该模型的性能显著优于基线方法，能够对大约22,000个类别进行分割和识别。在使用图像分类数据训练后，结果得到了进一步改善。

Paper198 3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation

这篇论文探讨了3D开放词汇全景分割的问题，这在自动驾驶中尤为重要。尽管先前的方法在已知基准上表现良好，但它们在处理未见过的物体和类别时存在困难。作者提出了一种方法，将可学习的激光雷达特征与密集视觉CLIP特征相结合进行预测，并引入了两个新的损失函数：对象级蒸馏损失和体素级蒸馏损失。他们的方法优于一个强大的基线，并在nuScenes和SemanticKITTI数据集上展示了有效性。这项研究为3D全景分割提供了显著的改进，特别是对于新颖的分类。

Paper199 An Open and Comprehensive Pipeline for Unified Object Grounding and Detection

文章介绍了MM-Grounding-DINO，这是Grounding-DINO模型的一个增强版本，它提供了一个全面、用户友好且开源的基线，用于多种视觉任务，如开放词汇检测、短语定位和指代表达式理解。该模型已与MMDetection工具箱集成，并使用了各种视觉和检测数据集进行预训练和微调。创作者对每个结果都进行了全面分析，并详细说明了复现设置。他们还进行了详尽的实验，显示MM-Grounding-DINO-Tiny优于原始的Grounding-DINO-Tiny。所有模型、代码和训练版本已通过GitHub仓库向研究社区提供。

Paper200 FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding

这篇文章介绍了一种名为基础模型嵌入式高斯散射（FMGS）的新方法，用于重建和表示3D视觉-语言模型。FMGS利用基于图像的基础模型产生的特征图，结合高斯散射和多分辨率哈希编码的整合，从而实现高质量的渲染和快速训练。文档提出了一个独特的训练程序，该程序融入了像素对齐损失，确保相同语义实体的渲染特征距离更接近。FMGS在多个视角下显示出令人印象深刻的语义一致性，并在开放词汇语言基对象检测方面优于当代方法10.2%，同时在推理过程中速度显著提高（851倍）。这项研究探索了视觉、语言和3D场景表示之间的相互联系，这可能会大大提高在不受控制的现实世界环境中的场景理解。