【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（12 月 5 日论文合集）（下）

最新推荐文章于 2024-08-26 21:43:52 发布

旅途中的宽~

最新推荐文章于 2024-08-26 21:43:52 发布

阅读量1.1k

点赞数 21

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能深度学习图像分割

本文链接：https://blog.csdn.net/wzk4869/article/details/134814929

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 136 订阅

订阅专栏

文章目录

1.7 StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On

SableVITON：基于潜在扩散模型的虚拟试衣语义一致性学习

https://arxiv.org/abs/2312.01725

给定服装图像和人物图像，基于图像的虚拟试穿旨在生成看起来自然并且准确地反映服装图像的特征的定制图像。在这项工作中，我们的目标是扩大预训练的扩散模型的适用性，使其可以独立地用于虚拟试穿任务。主要的挑战是保留服装细节，同时有效地利用预训练模型的鲁棒生成能力。为了解决这些问题，我们提出了StableVITON，以端到端的方式在预训练扩散模型的潜在空间内学习服装和人体之间的语义对应关系。我们提出的零交叉注意块不仅通过学习语义对应来保留服装细节，而且还通过在变形过程中利用预训练模型的固有知识来生成高保真图像。通过我们提出的新的注意力总变差损失和应用增强，我们实现了尖锐的注意力地图，从而更精确地表示服装细节。StableVITON在定性和定量评估中优于基线，在任意人物图像中显示出有希望的质量。我们的代码可在https://github.com/rlawjdghek/StableVITON上获得。

1.8 Universal Segmentation at Arbitrary Granularity with Language Instruction

基于语言教学的任意粒度通用分词

https://arxiv.org/abs/2312.01623

本文旨在实现任意语义层次的通用切分。尽管近年来取得了重大进展，但专业细分方法仅限于特定的任务和数据分布。重新训练一个新的模型以适应新的场景或设置需要昂贵的计算和时间成本，这就需要能够满足各种粒度的通用和通用的分割模型。虽然已经进行了一些尝试，统一不同的分割任务或推广到各种情况下，在定义的范例和输入输出空间的限制，使其难以实现准确的理解内容在任意粒度。为此，我们提出了UniLSeg，一个通用的分割模型，可以在任何语义级别的语言指令的指导下进行分割。为了训练UniLSeg，我们将一组来自原始不同分布的任务重新组织成统一的数据格式，其中输出带有描述分割目标的文本的图像作为输入和相应的掩码。UniLSeg结合自动标注引擎，利用大量未标记数据，在各种任务和设置上实现了卓越的性能，超越了专业和统一分割模型。

1.9 SAGE: Bridging Semantic and Actionable Parts for GEneralizable Articulated-Object Manipulation under Language Instructions

SAGE：在语言指令下为泛化的铰接式对象操作架起语义和可操作部分的桥梁

https://arxiv.org/abs/2312.01307

考虑到不同的对象结构、功能和目标，在许多现实世界的场景中，对铰接对象的可泛化操作仍然是一个具有挑战性的问题。在这些任务中，语义解释和物理解释对于政策的成功至关重要。为了解决这个问题，我们提出了SAGE，一个新的框架，桥梁的理解的语义和可操作的部分，铰接对象，以实现语言指令下的可推广的操作。给定由自然语言指定的操作目标，具有大语言模型（LLM）的指令解释器首先将它们转换为对象的语义部分上的编程动作。这个过程还涉及一个场景上下文解析器，用于理解视觉输入，它的目的是通过加入通才视觉语言模型（VLM）和领域专家部分感知模型的力量，生成具有丰富信息和准确的交互相关事实的场景描述。为了进一步将动作程序转换成可执行策略，部件基础模块然后将指令解释器建议的对象语义部件映射成所谓的可概括可操作部件（GAParts）。最后，一个交互式的反馈模块被纳入响应失败，这大大增加了整个框架的鲁棒性。在仿真环境和真实机器人上的实验表明，我们的框架可以处理各种各样的关节对象与不同的语言指导的目标。我们还提供了一个新的基准语言指导的关节对象操作在现实的情况下。

1.10 Simultaneous Alignment and Surface Regression Using Hybrid 2D-3D Networks for 3D Coherent Layer Segmentation of Retinal OCT Images with Full and Sparse Annotations

基于2D-3D混合网络的视网膜OCT图像三维相干层分割

https://arxiv.org/abs/2312.01726

视网膜光学相干断层扫描（OCT）图像的分层是OCT定量分析的重要环节。最近，基于深度学习的方法已经被开发出来，可以自动完成这项任务，并产生卓越的性能。然而，由于OCT体积的B扫描之间的大的空间间隙和潜在的不匹配，所有这些都是基于单个B扫描的2D分割，这可能会丢失3D空间中视网膜层的连续性和诊断信息。此外，这些方法中的大多数需要对OCT体积进行密集注释，这是劳动密集型的，并且需要专业知识。这项工作提出了一种基于混合2D-3D卷积神经网络（CNN）的新框架，以从OCT体积中获得连续的3D视网膜层表面，该框架适用于完整和稀疏注释。单个B扫描的2D特征由2D卷积组成的编码器提取。这些2D特征然后被用于通过经由空间Transformer模块耦合的两个3D解码器来产生对准位移向量和层分割。提出了两个损失，以利用视网膜层的自然属性是光滑的B扫描对齐和层分割，分别，是关键的半监督学习稀疏注释。整个框架都是端到端训练的。据我们所知，这是第一个尝试基于CNN在体积OCT图像中进行3D视网膜层分割的工作。在合成数据集和三个公共临床数据集上的实验表明，我们的框架可以有效地对齐B扫描以进行潜在的运动校正，并在全监督和半监督设置下的层分割准确性和交叉B扫描3D连续性方面实现了优于最先进的2D深度学习方法的性能，从而提供了比以前更多的临床价值。

1.11 Towards an accurate and generalizable multiple sclerosis lesion segmentation model using self-ensembled lesion fusion

使用自组装病变融合实现准确和可推广的多发性硬化病变分割模型

https://arxiv.org/abs/2312.01460

与手动描绘相比，使用多对比度磁共振（MR）图像的自动多发性硬化（MS）病变分割提供了更高的效率和再现性。当前最先进的自动MS病变分割方法利用修改的U-Net样架构。然而，在文献中，总是需要专门的架构修改，以最大限度地提高其性能。此外，性能最佳的方法还没有被证明是可推广到不同的测试数据集的对比度变化和图像伪影。在这项工作中，我们开发了一个准确的和可推广的MS病变分割模型，使用著名的U-Net架构，无需进一步修改。提出了一种新的测试时间自集成病变融合策略，不仅使用ISBI 2015 MS分割挑战数据实现了最佳性能，而且在各种自集成参数选择中表现出了鲁棒性。此外，配备了实例归一化而不是文献中广泛使用的批量归一化，在ISBI挑战数据上训练的模型在来自不同扫描仪的临床测试数据集上推广得很好。

1.12 Motion-aware Needle Segmentation in Ultrasound Images

超声图像中运动感知针的分割

https://arxiv.org/abs/2312.01239

由于伪影、噪声和针阻塞的存在，分割超声图像中的移动针是具有挑战性的。在数据可用性有限的情况下，此任务变得更加苛刻。卷积神经网络（CNN）在许多计算机视觉应用中取得了成功，但在不考虑针的运动的情况下，很难准确地分割针。在本文中，我们提出了一种新的针分割方法，结合经典的卡尔曼滤波（KF）技术与数据驱动的学习，结合针的功能和针的运动。我们的方法提供了两个关键的贡献。首先，我们提出了一个兼容的框架，无缝集成到常用的编码器-解码器风格的架构。其次，我们使用基于KF启发的块的新型卷积神经网络（CNN），与最近最先进的针分割模型相比，我们表现出卓越的性能，实现了像素针尖误差减少15%，长度误差减少8%。第三，据我们所知，我们是第一个实现可学习过滤器的公司，该过滤器将非线性针运动纳入其中，以改善针分割。