【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（9 月 4 日论文合集）_beyond self-attention: deformable large kernel att-CSDN博客

本文链接：https://blog.csdn.net/wzk4869/article/details/132753649

文章目录

一、分割|语义相关(9篇)

一、分割|语义相关(9篇)

1.1 OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation

OpenIns3D：用于3D开放词汇实例分割的Snap和Lookup

https://arxiv.org/abs/2309.00616

目前的3D开放词汇场景理解方法大多利用对齐良好的2D图像作为桥梁，学习3D特征与语言。然而，在不存在2D图像的情况下，应用这些方法变得具有挑战性。在这项工作中，我们引入了一个全新的管道，即OpenIns 3D，它不需要2D图像输入，在实例级的3D开放词汇场景理解。OpenIns 3D框架采用“Mask-Snap-Lookup”方案。“掩模”模块学习3D点云中的类不可知掩模提议。“Snap”模块生成多个尺度的合成场景级图像，并利用2D视觉语言模型来提取有趣的对象。“查找”模块在Mask 2 Pixel映射的帮助下搜索“Snap”的结果，Mask 2 Pixel映射包含3D掩模和合成图像之间的精确对应关系，以将类别名称分配给建议的掩模。这种无需2D输入、易于训练且灵活的方法在各种室内和室外数据集上实现了最先进的结果，具有很大的优势。此外，OpenIns 3D允许轻松切换2D探测器，无需重新训练。当与最先进的2D开放世界模型（如ODISE和GroundingDINO）集成时，在开放词汇实例分割上观察到了极好的结果。当与LLM驱动的2D模型（如LISA）集成时，它展示了处理高度复杂的文本查询的非凡能力，包括那些需要复杂推理和世界知识的查询。代码和模型将公开提供。

1.2 dacl10k: Benchmark for Semantic Bridge Damage Segmentation

Dacl10k：语义桥损伤分割基准

https://arxiv.org/abs/2309.00460

可靠地识别钢筋混凝土缺陷（RCD）在评估混凝土桥梁的结构完整性、交通安全性和长期耐久性方面起着至关重要的作用。然而，用于识别RCD的可用数据集在大小和类别多样性方面都很小，这质疑它们在现实世界场景中的可用性及其作为基准的作用。我们对这个问题的贡献是“dacl10k”，这是一个非常多样化的RCD数据集，用于多标签语义分割，包括来自真实世界桥梁检查的9，920张图像。dacl10k区分了12个损坏类别以及6个桥梁构件，这些构件在建筑评估和建议行动（如修复工程、交通负荷限制或桥梁关闭）中起着关键作用。此外，我们检查基线模型dacl10k随后进行评估。最好的模型在测试集上实现了0.42的平均交集。dacl10k，连同我们的基线，将开放给研究人员和从业人员，代表了目前最大的数据集，有关图像数量和类别多样性的桥梁检测领域语义分割。

1.3 Unsupervised bias discovery in medical image segmentation

医学图像分割中的无监督偏差发现

https://arxiv.org/abs/2309.00451

最近有研究表明，用于医学图像中解剖分割的深度学习模型可能会对根据受保护属性（如性别或种族）定义的某些子群体表现出偏见。在这种情况下，审计深度细分模型的公平性变得至关重要。然而，这样的审计过程通常需要访问目标人群的真实分割掩模，这可能并不总是可用的，特别是当从开发到部署时。在这里，我们提出了一种新的方法来预测模型的偏见，在生物医学图像分割的情况下，地面实况注释。我们的无监督偏差发现方法利用反向分类精度框架来估计分割质量。通过在合成和现实场景中的数值实验，我们展示了我们的方法如何能够成功地预测公平性问题，在没有地面实况标签的情况下，构成了一个新的和有价值的工具，在这一领域。

1.4 Towards Addressing the Misalignment of Object Proposal Evaluation for Vision-Language Tasks via Semantic Grounding

通过语义基础解决视觉语言任务客体建议评价的错位

https://arxiv.org/abs/2309.00215

对象建议生成用作视觉语言（VL）任务（图像字幕、视觉问题回答等）中的标准预处理步骤。针对VL任务生成的对象建议的性能目前在所有可用的注释中进行评估，我们显示的协议是不对齐的-较高的分数不一定对应于下游VL任务的改进性能。我们的工作是作为一个研究这一现象，并探讨语义基础的有效性，以减轻其影响。为此，我们建议评估对象的建议，对只有一个子集的可用注释，选择阈值的注释重要性得分。通过从描述图像的文本中提取相关语义信息来量化对象注释对VL任务的重要性。我们表明，我们的方法是一致的，并表现出极大地改善了与现有技术相比，由图像字幕指标和人类注释选择的注释对齐。最后，我们比较了场景图生成（SGG）基准测试中使用的当前检测器作为用例，这是传统对象提案评估技术不一致的一个例子。

1.5 DARC: Distribution-Aware Re-Coloring Model for Generalizable Nucleus Segmentation

DARC：广义核分割的分布感知重着色模型

https://arxiv.org/abs/2309.00188

细胞核分割通常是病理图像分析任务的第一步。可推广核分割是指训练分割模型的问题，该分割模型对源域和目标域之间的域间隙是鲁棒的。畴间隙通常被认为是由变化的图像获取条件引起的，例如，不同的扫描仪、组织或染色方案。在本文中，我们认为，域间隙也可以由不同的前景（核）-背景比，因为这个比例显着影响特征统计，是至关重要的归一化层。我们提出了一个分布感知重新着色（DARC）模型，从两个角度处理上述挑战。首先，我们介绍了一种重新着色的方法，减轻了戏剧性的图像颜色之间的不同域之间的变化。其次，我们提出了一个新的实例归一化方法，是鲁棒的前景背景比率的变化。我们评估了两个H $\&$ E染色图像数据集，命名为CoNSeP和CPM 17，和两个IHC染色图像数据集，命名为DeepLIIF和BC-DeepLIIF。大量的实验结果证明了我们提出的DARC模型的有效性。代码可在\url{https：github.com/csccsccsccsc/DARC

1.6 Self-supervised Semantic Segmentation: Consistency over Transformation

自监督语义分割：一致性优先于变换

https://arxiv.org/abs/2309.00143

准确的医学图像分割对于实现自动化临床决策过程至关重要。然而，用于医学图像分割的主流监督式深度学习方法由于其严重依赖于大量标记的训练数据而面临重大挑战。为了解决这个问题，我们提出了一种新的自监督算法，\textbf{S $^3$ -Net}，它集成了一个强大的框架的基础上提出的初始大内核注意力（I-LKA）模块。这种架构增强使得可以全面地捕获上下文信息，同时保留局部复杂性，从而实现精确的语义分割。此外，考虑到在医学图像中的病变往往表现出变形，我们利用可变形卷积作为一个不可分割的组成部分，以有效地捕捉和描绘病变的变形，以获得更好的对象边界定义。此外，我们的自我监督策略强调获取仿射变换的不变性，这在医疗场景中是常见的。这种对几何失真鲁棒性的强调显著增强了模型精确建模和处理这种失真的能力。为了加强空间一致性和促进具有相似特征表示的空间连接图像像素的分组，我们引入了空间一致性损失项。这有助于网络有效地捕获相邻像素之间的关系并提高整体分割质量。S $^3$ -Net方法以端到端的方式迭代地学习用于图像内容聚类的像素级特征表示。我们的皮肤病变和肺器官分割任务的实验结果表明，我们的方法相比，SOTA方法的优越性能。https://github.com/mindflow-institue/SSCT

1.7 Beyond Self-Attention: Deformable Large Kernel Attention for Medical Image Segmentation

超越自我注意：用于医学图像分割的可变形大核注意

https://arxiv.org/abs/2309.00121

医学图像分割已经看到了显着的改进与Transformer模型，它擅长掌握深远的背景和全球背景信息。然而，这些模型日益增长的计算需求（与令牌计数的平方成比例）限制了它们的深度和分辨率能力。大多数当前的方法处理D体积图像数据切片切片（称为伪3D），丢失关键的切片间信息，从而降低模型的整体性能。为了解决这些挑战，我们引入了\textbf{可变形大内核注意力（D-LKA注意力）}的概念，这是一种采用大卷积内核的简化注意力机制，可以充分理解体积上下文。这种机制在一个类似于自我注意的感受野内运作，同时避开了计算开销。此外，我们提出的注意力机制受益于可变形卷积，以灵活地扭曲采样网格，使模型能够适当地适应不同的数据模式。我们设计了D-LKA Attention的2D和3D适配，后者在跨深度数据理解方面表现出色。这些组件共同塑造了我们新颖的分层Vision Transformer架构，即\textit{D-LKA Net}。我们的模型对流行的医学分割数据集（突触，NIH胰腺和皮肤病变）的领先方法的评估表明其优越的性能。我们的代码实现可在以下网站公开获取：https://github.com/mindflow-institue/deformableLKA

1.8 Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation

基于属性分解-聚合的开放词汇语义切分

https://arxiv.org/abs/2309.00096

开放词汇语义分割是一项具有挑战性的任务，需要在推理时分割新的对象类别。最近的作品探索视觉语言预训练来处理这个任务，但在实际场景中遭受不切实际的假设，即，低质量的文本类别名称。例如，该范例假设新的文本类别将被准确且完整地提供，并且在预训练期间存在于词典中。然而，当遇到简短或不完整的名称的模糊性、预先训练的词典中不存在的新词以及用户难以描述的类别时，经常会发生例外。为了解决这些问题，这项工作提出了一种新的分解聚合框架，灵感来自人类认知理解新概念。具体来说，在分解阶段，我们解耦类名到不同的属性描述，以丰富语义上下文。设计了两种属性构造策略：使用大型语言模型用于常见类别，并涉及人工标记人类发明的类别。在聚集阶段，我们将不同的属性组合成一个完整的全局描述，以形成一个区分目标对象的判别分类器。进一步设计了一种层次化聚合，实现视觉与文本的多级对齐和深度融合。通过计算聚合属性与图像之间的嵌入相似度来获得最终结果。为了评估有效性，我们用属性描述注释了三个数据集，并进行了广泛的实验和消融研究。实验结果表明，属性分解-聚合方法具有较好的性能。

1.9 Bellybutton: Accessible and Customizable Deep-Learning Image Segmentation

肚脐：可访问和可定制的深度学习图像分割

https://arxiv.org/abs/2309.00058

将原始图像转换为可量化数据可能是实验研究中的主要障碍，并且通常涉及识别感兴趣的区域，该过程称为分割。用于图像分割的机器学习工具通常特定于一组任务，例如跟踪细胞，或者需要大量的计算或编码知识来训练和使用。在这里，我们介绍一种易于使用（不需要编码）的图像分割方法，使用可以在笔记本电脑上训练的15层卷积神经网络：肚脐该算法在用户提供的示例图像的分割上进行训练，但是，如我们所示，在某些情况下，一个训练图像的一个或甚至一部分就足够了。我们详细介绍了机器学习方法，并给出了三个用例，其中Bellybutton正确地分割图像，尽管在感兴趣的区域中存在大量的照明，形状，大小，焦点和/或结构变化。易于下载和使用的说明，以及本文中使用的更多细节和数据集可在pypi.org/project/Bellybuttonseg上获得。