【CVPR2022】 E2EC：一种基于端到端轮廓的高质量高速实例分割方法

明月醉窗台

已于 2022-09-22 18:31:14 修改

阅读量2.1k

点赞数 2

分类专栏： # 深度学习文章标签：深度学习人工智能计算机视觉神经网络目标检测

于 2022-09-04 21:46:39 首次发布

本文链接：https://blog.csdn.net/yohnyang/article/details/126559408

版权

深度学习专栏收录该内容

21 篇文章 46 订阅

订阅专栏

E2EC：一种基于端到端轮廓的高质量高速实例分割方法

E2EC: An End-to-End Contour-based Method for High-Quality High-Speed Instance Segmentation

1. 简介

在本文中，我们引入了一种新的基于轮廓的方法E2EC，用于高质量的实例分割。
首先，E2EC采用了一种新的可学习的轮廓初始化架构，而不是手工制作的轮廓初始化。这包括一个能够构造更显化学习目标的轮廓初始化模块和一个能够更好地利用所有顶点特征的全局轮廓变形模块。
其次，我们提出了一种新的标签采样方案，称为多方向对齐，以减少学习差异。
第三，为了提高边界细节的质量，我们动态匹配最合适的预测地面真实顶点对，并提出相应的损失函数动态匹配损失。
实验表明，E2EC可以在KITTI实例(KINS)数据集、语义边界数据集(SBD)、城市景观和COCO数据集上达到最先进的性能。E2EC在实时应用中也很有效，在NVIDIA A6000GPU上对512张×512图像的推理速度为36 fps。

论文：https://arxiv.org/pdf/2203.04074.pdf
代码：https://github.com/zhang-tao-whu/e2ec

上图 -> 图1 ：几种基于轮廓的方法的理想变形路径。白色边界和点是初始轮廓，蓝线是变形路径，黑色点是对齐点。

1.1 浅讲实例分割

经典方法是基于一个两阶段的通道，首先生成基于实例的边界框(bboxes)，然后在bboxes中执行像素级分割，如Mask-RCNN和PANet 等方法，虽然可以获得较好的精度，但效率低下，限制了他们在实时任务中的应用。
随着单阶段检测器的快速发展，目前已经提出了许多基于单级掩模的实例分割方法，如YOLACT、空白掩模、张量掩模和中心掩模。然而，这些单阶段方法消耗大量存储，需要昂贵的后处理，而且很难实时执行。实例边界预测的质量也不令人满意，因为这些方法通常使用有限的特征信息(例如，Mask R-CNN仅在28×28特征图中分割实例)。
基于轮廓的方法最近受到了新的关注，并显示出了巨大的潜力。这些方法的例子有曲线GCN、Deep GCN、点集锚点、DANCE、偏振掩模和LSNet。基于轮廓的方法将实例分割视为一个回归任务，即对由一系列离散顶点表示的轮廓的顶点坐标进行回归。由N个(例如，N个=128)顶点组成的轮廓足以很好地描述大多数实例的。与基于掩模的方法需要对每个像素的密集处理相比，基于轮廓的方法更简单，计算需要更少。基于轮廓的方法还可以直接获得实例的边界，而不需要进行任何复杂的后处理。

1.2 目前轮廓分割主要面临的问题

所有现有的多阶段方法都是对初始轮廓采用手工设计的形状。如前边图1中的白线所示，人工设计的初始轮廓与地真实例边界之间的差异会导致许多不合理的变形路径（从初始到地真顶点的路径）和巨大的训练难度。
局部或有限的信息可能被应用于轮廓变形过程中。例如，单级偏振掩模和LSNet方法仅基于实例中心上有限的特征，直接回归轮廓顶点的坐标，导致预测的轮廓细节的丢失。多阶段方法根据轮廓顶点的特征对初始轮廓进行迭代调整，得到更精细的分割结果。然而，Curve GCN和Deep Snake利用局部信息聚合机制，传播局部相邻轮廓顶点的特征来细化轮廓，这可能无法纠正较大的预测误差。此外，必须无效地重复局部聚合以访问全局信息。相反，我们提出了一种基于所有轮廓顶点特征的全局轮廓变形方法。
在当前基于轮廓的方法中，地面真值和预测顶点的配对是固定的，无论预测顶点的连续位置调整如何（例如，它已经在地面真值边界上或接近另一个地面真值顶点，但离给定的顶点很远）。因此，预先固定的顶点配对并不是最优的，它可能会导致较慢的收敛速度，甚至是错误的预测。

在本文中，我们提出了一种多阶段的、高效的基于端到端轮廓的实例分割模型E2EC，可以完全克服这些缺点。E2EC包含了三个新的组件：
1）可学习的轮廓初始化架构；
2）多方向对齐(MDA)；
3）动态匹配损失(DML)函数。

1.3 基于端到端轮廓的实例分割模型E2EC

E2EC用一个可学习的轮廓初始化架构取代了手动设计的初始轮廓，它可以处理第一个和第二个问题。该架构包含两个新模块：1）轮廓初始化模块；2）全局轮廓变形模块。轮廓初始化模块基于中心点特征直接对完整的初始轮廓进行回归，这与沿着给定的固定射线的回归长度不同。然后，全局轮廓变形模块基于初始轮廓的所有特征对初始轮廓进行细化顶点和中心点，而不是使用局部顶点的特征。如图1所示，可学习的初始轮廓架构并不依赖于人工设计的初始轮廓(例如，曲线GCN的椭圆或深蛇的八边形)，而是直接从对象实例的中点变形到具有更合理路径的轮廓。
为了解决第三个问题，一方面，我们提出了多方向对齐(MDA)，它固定了选定的多个轮廓顶点相对于中心点的方向(图1(E2EC)中的黑点)的方向，然后在固定的顶点之间均匀采样，生成地面真顶点。MDA适当地限制了可能的顶点配对和变形路径，在保证性能上限的同时，大大降低了学习的难度。将可学习的初始轮廓体系结构与MDA相结合，消除了目前基于轮廓的方法中常见的不合理的变形路径。
另一方面，我们提出了一种匹配策略，即动态匹配预测的顶点和最合适的标签顶点，而不是固定的配对，以及相应的动态匹配损失(DML)函数。DML消除了基于轮廓的方法中边界过光滑和拐点拟合较差的问题，极大地提高了预测边界细节的质量。
在本研究中进行的实验中，E2EC在KITTI INStance(KINS)数据集、语义边界数据集(SBD)和城市景观数据集上表现出了最先进的性能。对于512张×512图像，E2EC在NVIDIA A6000GPU上实现了36帧每秒的推理速度。如果禁用迭代变形模块，E2EC可以达到50帧/秒的速度，其精度与Deep Snake相当。

2. E2EC模型

E2EC的工作流程下图所示。E2EC首先生成一个热图来定位实例中心，然后通过基于中心点特征回归初始偏移量来学习初始轮廓。初始轮廓首先由一个全局变形模块进行变形，然后演化为粗轮廓。变形模块将粗轮廓变形到最终轮廓。
在这里插入图片描述

2.1 可学习的轮廓初始化体系结构

该可学习的轮廓初始化体系结构包括轮廓初始化模块和全局变形模块。

1. 轮廓初始化：首选通过目标对象特征提取得到其对应特征图的中心点，然后根据中心点和对于边界顶点的偏移量对所有的轮廓顶点进行回归，得到的是一个有序的轮廓点集。
2. 全局变形：基于中心点特征和所有轮廓顶点特征，提出了一种简单但更有效的全局聚合机制，提出了全局变形对初始轮廓进行变形。如上图(b)所示，首先将N个初始轮廓顶点和中心点的特征连接到一个 长度向量(N+1)×C(其中C是顶点特征的信道数) 中。然后将该向量输入到MLP模块(隐藏层的通道和输出层为N×2)，以获得轮廓顶点的偏移预测(一个长度为N×2的向量)。将偏移量和初始等高线坐标求和，得到调整后的粗实例轮廓在我们的实验中，我们设置了N=128和C=64。

2.2 多方向对准(MDA)

由于轮廓初始化和预测标签顶点配对的挑战，实际顶点变形路径与理想变形路径之间可能存在偏差，导致一些顶点趋向于沿轮廓方向的调整，收敛速度较慢，甚至出现错误的预测。
MDA通过 固定几个选定的顶点相对于中心点的方向(空间关系) 来解决这个问题，然后在固定的顶点之间均匀地采样真实信息。对不同数量的对齐顶点的采样结果下图所示。MDA可以有效降低轮廓调整的学习难度，而不降低性能的上限。有趣的是，PolarMask和LSNet是MDA的两个极端情况。如果假设轮廓顶点数为N，对齐顶点数为M，当M=N时，策略退化为PolarMask，其学习难度最低，但性能上界最低。当M=0时，策略退化为LSNet，这是最难学习的情况，性能上限很高。实验发现，M=4的性能最好。当M=4时，学习难度显著降低，但性能的上限没有降低。

2.3 动态匹配损失(DML)

由于以往研究中使用的预固定顶点配对不是最优的，会导致学习困难，我们提出DML，动态调整顶点配对的关系，以监督最后一个变形-4模块的输出，如E2EC模型图所示。损失由两部分组成：1)预测的顶点指向标签边界上最近的点，如下图5(a)所示，然后 2)关键标签顶点将最近的预测顶点拉向其位置，如图5(b).所示DML的完整细节如下所述。
在最好的情况下，顶点应该以最小的成本调整到目标轮廓。对于每个预测的顶点，动态地寻找标签等高线中最近的对应关系是一个复杂的过程。首先，为了简化计算，将相邻的真实顶点分成10个相等的子段。然后将问题转化为发现最近的插值地真轮廓顶点。
------ 式（1）描述了通过最小化预测的第i个点和第x个(0<x<N+1)标记点的L2距离来匹配每个预测轮廓顶点的最接近插值真实顶点(gtipt)的过程。
------ 式（2）是DML对应的第一分量。其次，将最近的预测顶点与标签轮廓的关键顶点（由道格拉斯-佩克算法获得）进行动态匹配，以保留预测轮廓的细节。
------ 式（3）描述了将每个关键顶点与最近的预测顶点进行匹配，以最好地保留边界的细节的过程。
------ 式（4）是DML对应的第二分量。DML是上述两个分量的平均值，
------ 式（5）所示。DML可以极大地提高预测边界的质量，并解决在 Deep Snake and DANCE中发现的过平滑问题。

3. 实施细节

1. 检测器(detector): E2EC可以基于任何检测器构造，只需要将bbox分支的输出大小从H×W×2改为H×W×(N×2)，即可直接回归具有N个顶点的初始轮廓。在本研究的实验中，为了与其他方法进行公平的比较，我们使用CenterNet作为E2EC的检测器。
1. 损失函数使用平滑L1损失来监督轮廓初始化分支、全局变形分支和第一个细化变形模块。对损失的定义为：
  
  其中：
  
  最后损失函数相关的直接放个图吧：

4. 效果与结论

4.1 数据集与指标

实验中使用了KINS[28]、SBD[13]、城市景观[6]和COCO[20]数据集。KINS数据集用于模态实例分割，有7个实例类，其中有7,474张训练图像和7,517张测试图像。SBD数据集有20个实例类，并被分为5623张训练图像和5732张测试图像。SBD数据集由来自PASCAL VOC[10]数据集的11,355张重新注释的图像组成，具有实例级边界。城市景观数据集有8个实例类，包含2,975个训练图像、500个验证图像和1,525个带有高质量注释的测试图像。COCO数据集有80个实例类，包含115k训练、5k验证和20k测试图像。指标。
本文采用标准的AP度量方法对掩模质量进行了评价。为了区分标准AP度量和其他度量，请将其记为APmsk。对于所有的数据集，APmsk的所有设置都与深蛇的设置相同。根据[5]提出的边界AP度量来评价边界质量。这被记为APbdy，重点关注边界质量

4.2 实验效果

在这里插入图片描述

4.3 结论

本文提出了一种基于端到端轮廓的实例分割方法E2EC。E2EC引入了三个新的组成部分：1）可学习的轮廓线初始化架构；2）多方向对齐(MDA)标签采样方案；3）动态匹配损失(DML)函数。E2EC大大提高了基于轮廓的实例分割的轮廓提取质量。
在这项研究中，E2EC在KINS、SBD和城市景观数据集上取得了最先进的结果，具有超越实时性的性能。我们还引入了一种更快的变体，通过只保留可学习的轮廓初始化架构，其精度可以与深蛇相当，而且速度几乎与骨干一级检测器中心网一样快。E2EC中提出的模块可以很容易地应用于其他基于轮廓的实例分割方法。我们希望E2EC能够作为基于轮廓的实例分割研究的基础和强基线。

轮廓分割是我硕士期间的研究内容，当时用的是传统的方法提取轮廓，对轮廓进行分段分割合并来提取特征，轮廓是判断一个对象属性十分重要的特征，可以十分方便及可靠的应用于一些场景中，刚看到这篇论文时就突然有了浓厚的兴趣，后续也将继续研究此算法，并希望可以将它应用于一些场景中去以解决实际问题。
有新的进度的话会持续更新，加油！