【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（11 月 29 日论文合集）（上）

本文链接：https://blog.csdn.net/wzk4869/article/details/134719212

文章目录

一、分割|语义相关(16篇)

一、分割|语义相关(16篇)

1.1 Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence

从左到右区分：识别几何认知的语义对应

https://arxiv.org/abs/2311.17034

虽然预先训练的大规模视觉模型在语义对应方面表现出了巨大的潜力，但它们的特征往往难以把握实例的几何形状和方向。本文确定了几何感知的语义对应的重要性，并揭示了简单的后处理下，目前的基础模型的功能的局限性。我们表明，将这些信息可以显着提高语义对应的性能与简单但有效的解决方案，在zero-shot和监督设置。我们还为两个预训练验证模型构建了一个新的具有挑战性的基准，用于从现有的动物姿态估计数据集构建语义对应。我们的方法在具有挑战性的SPair-71 k数据集上实现了64.2（zero-shot）和85.6（监督）的PCK@0.10得分，分别以4.3p和11.0p的绝对增益优于最先进的技术。我们的代码和数据集将公开提供。

1.2 Diffusion 3D Features (Diff3F): Decorating Untextured Shapes with Distilled Semantic Features

扩散3D特征（Diff3F）：用提取的语义特征装饰无纹理的图像

https://arxiv.org/abs/2311.17024

我们提出Diff3F作为一个简单的，强大的，和类不可知的特征描述符，可以计算无纹理的输入形状（网格或点云）。我们的方法从图像基础模型中提取扩散特征到输入形状上。具体来说，我们使用输入形状来生成深度和法线图，作为条件图像合成的指导，并在此过程中生成2D（扩散）特征，随后在原始表面上进行提升和聚合。我们的关键观察是，即使从输入形状的多视图渲染获得的条件图像生成是不一致的，相关联的图像特征是鲁棒的，可以直接跨视图聚合。这在输入形状上产生语义特征，而不需要额外的数据或训练。我们在多个基准（SHREC’19，SHREC’20和TOSCA）上进行了广泛的实验，并证明了我们的功能，是语义而不是几何，产生可靠的对应关系，在等距和非等距相关的形状家庭。

1.3 Image segmentation with traveling waves in an exactly solvable recurrent neural network

精确可解递归神经网络中的行波图像分割

https://arxiv.org/abs/2311.16943

我们研究图像分割使用时空动态的递归神经网络中的每个单元的状态是由一个复数。我们表明，该网络产生复杂的时空动态，可以有效地划分成组的图像根据场景的结构特征。使用递归网络动力学的精确解，我们精确描述了该网络中对象分割的机制，为网络如何执行此任务提供了清晰的数学解释。然后，我们展示了一个简单的算法，对象分割，概括了从简单的几何对象的灰度图像到自然图像的输入。所有图像的对象分割都是通过一个具有单一固定权重集的递归神经网络完成的。这证明了递归神经网络在使用数学方法构建时的表达潜力，该方法将其结构，动力学和计算结合在一起。

1.4 LLaFS: When Large-Language Models Meet Few-Shot Segmentation

LLaFS：当大语言模型遇到小镜头切分时

https://arxiv.org/abs/2311.16926

本文提出了LLaFS，首次尝试利用大型语言模型（LLM）在Few-Shot分割。与传统的Few-Shot分割方法仅依赖于来自带注释的支持图像的有限和有偏差的信息相比，LLaFS利用LLM获得的大量先验知识作为有效的补充，并直接使用LLM以Few-Shot方式分割图像。为了使基于文本的LLM处理图像相关的任务，我们精心设计了一个输入指令，允许LLM产生分割结果表示为多边形，并提出了一个区域属性表来模拟人类的视觉机制，并提供多模态的指导。我们还合成了伪样本，并使用课程学习进行预训练，以增加数据并实现更好的优化。LLaFS在多个数据集上实现了最先进的结果，显示了将LLM用于Few-Shot计算机视觉任务的潜力。代码将在https://github.com/lanyunzhu99/LLaFS上提供。

1.5 Optimisation-Based Multi-Modal Semantic Image Editing

基于优化的多通道语义图像编辑

https://arxiv.org/abs/2311.16882

图像编辑提供了对所生成图像的美学和内容的更好的控制。现有的作品主要集中在基于文本的指令，以实现所需的图像修改，这限制了编辑精度和准确性。在这项工作中，我们提出了一个推理时间编辑优化，旨在扩展超出文本编辑，以适应多种编辑指令类型（例如，基于空间布局;姿势，涂鸦，边缘图）。我们建议将编辑任务分解为两个相互竞争的子任务：成功的局部图像修改和全局内容一致性保护，其中子任务通过两个专用的损失函数进行指导。通过允许调整每个损失函数的影响，我们构建了一个灵活的编辑解决方案，可以根据用户的偏好进行调整。我们使用文本，姿势和涂鸦编辑条件来评估我们的方法，并通过定性和定量实验来突出我们实现复杂编辑的能力。

1.6 Towards Full-scene Domain Generalization in Multi-agent Collaborative Bird’s Eye View Segmentation for Connected and Autonomous Driving

面向连通自主驾驶的多智能体协同鸟视图分割中的全景景域综合

https://arxiv.org/abs/2311.16754

协作感知最近在自动驾驶中获得了极大的关注，通过在车辆之间交换额外的信息来提高感知质量。然而，部署协作感知系统可能会导致领域转移，这是由于不同的环境条件和联网和自动驾驶车辆（CAV）之间的数据异构性。为了解决这些挑战，我们提出了一个统一的领域泛化框架，适用于协同感知的训练和推理阶段。在训练阶段，我们引入了幅度增强（AmpAug）方法来增强低频图像变化，从而扩展了模型在各个领域的学习能力。我们还采用了元一致性训练方案来模拟域转移，通过精心设计的一致性损失来优化模型，以鼓励域不变表示。在推理阶段，我们引入了一个系统内的域对齐机制，以减少或潜在地消除域之间的差异CAV推理之前。综合实验证实了我们的方法的有效性与现有的国家的最先进的作品相比。代码将在https://github.com/DG-CAVs/DG-CoPerception.git上发布。

1.7 CADTalk: An Algorithm and Benchmark for Semantic Commenting of CAD Programs

CADTalk：一种面向CAD程序的语义评论算法和基准

https://arxiv.org/abs/2311.16703

CAD程序是一种流行的方法，它将形状压缩编码为一系列易于参数化修改的操作。然而，如果没有足够的语义注释和结构，这样的程序可能很难理解，更不用说修改了。我们引入的问题，语义注释CAD程序，其中的目标是分割成对应于语义有意义的形状部分的代码块的输入程序，并分配一个语义标签到每个块。我们解决这个问题相结合的程序解析与视觉语义分析提供的基础语言和视觉模型的最新进展。具体来说，通过执行输入程序，我们创建的形状，我们使用它来生成条件照片级真实感图像，以利用这些图像的语义注释器。然后，我们提取图像中的信息，并链接回原始程序以对其进行语义评论。此外，我们还收集并注释了一个基准数据集CADTalk，该数据集由5，280个机器程序和45个人工程序组成，并带有真实语义注释，以促进未来的研究。我们广泛评估了我们的方法，与基于GPT的基线方法和开集形状分割基线（即，PartSLIP，并报告了83.24%的准确率在新的CADTalk数据集。项目页面：https://enigma-li.github.io/CADTalk/。

1.8 Rethinking Intermediate Layers design in Knowledge Distillation for Kidney and Liver Tumor Segmentation

肾、肝肿瘤知识提取中中间层设计的再思考

https://arxiv.org/abs/2311.16700

知识蒸馏（KD）在各个领域都取得了显着的成功，但其应用于医学成像任务，如肾脏和肝脏肿瘤分割，遇到了挑战。许多现有的KD方法不是专门针对这些任务而定制的。此外，流行的知识传授方法往往缺乏对从教师到学生提取什么和从哪里提取知识的仔细考虑。这种疏忽可能会导致训练偏差在较浅的学生层中积累等问题，从而可能影响KD的有效性。为了应对这些挑战，我们提出了分层选择性反馈蒸馏（HLFD）。HLFD策略性地从中间层的组合中提取知识到早期层，并将最终层知识传输到特征和像素级别的中间层。这种设计允许模型从早期的层学习更高质量的表示，从而产生一个强大而紧凑的学生模型。广泛的定量评估表明，HLFD优于现有的方法的显着保证金。例如，在肾脏分割任务中，HLFD超过学生模型（无KD）超过10pp，显著提高了对肿瘤特异性特征的关注。从定性的角度来看，使用HLFD训练的学生模型擅长抑制不相关的信息，并且可以敏锐地关注肿瘤特定的细节，这为更有效和准确的诊断工具开辟了新的途径。