E2EC：An End-to-End Contour-based Method for High-quality High-Speed Instance Segmentation CVPR2022解读

最新推荐文章于 2023-01-21 11:17:10 发布

海南1506

最新推荐文章于 2023-01-21 11:17:10 发布

阅读量1.6k

点赞数

分类专栏：分割论文阅读文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_44340538/article/details/123686985

版权

论文阅读同时被 2 个专栏收录

7 篇文章 1 订阅

订阅专栏

分割

1 篇文章 0 订阅

订阅专栏

本文介绍了一种新型实例分割模型E2EC，它通过可学习的轮廓初始化、多方向对齐和动态匹配损失克服了现有基于轮廓方法的缺点。E2EC通过中心点特征回归，全局轮廓变形和优化配对策略，提升精度并保持高效。实验结果表明E2EC在多个数据集上表现出色，且具有良好的实时性能。

摘要由CSDN通过智能技术生成

引言

实例分割目前的流行方法：

先检测，在对检测框进行分割：Mask RCNN；PANet
- 优点：精度高
- 缺点：效率低下
单阶段Mask方法：YOLACT；BlendMask；TensorMask；CenterMask
- 优点：单阶段检测器，效率比之前两种稍高
- 缺点：消耗大量存储，需要昂贵的后处理，很难实时执行，边界质量差
基于轮廓的方法：Curve GCN；Deep Snake；Point-Set Anchors；DANCE；PolarMask；LSNet
- 优点：基于轮廓的方法将实例分割视为一个回归任务，即对由一系列离散顶点表示的轮廓的顶点坐标进行回归。一个由N个(例如，N=128)顶点组成的轮廓线足以很好地描述大多数实例的[27]。与基于掩模的方法需要对每个像素的密集处理相比，基于轮廓的方法更简单，计算需要更少。基于轮廓的方法还可以直接获得实例的边界，而不需要进行任何复杂的后处理。
- 缺点：首先，所有现有的多阶段方法都是对初始轮廓采用手工设计的形状。如图1所示，人工设计的初始轮廓与地真实例边界之间的差异会导致许多不合理的变形路径（从初始到地真顶点的路径）和巨大的训练难度。Point-Set Anchors and DANCE试图通过改变直观的顶点配对方法来改善此问题，但是效果并不令人满意。
  
  其次，局部或有限的信息。例如，单级偏振掩模[33]和LSNet[9]方法仅基于实例中心上有限的特征，直接回归轮廓顶点的坐标，导致预测的轮廓细节的丢失。多阶段方法根据轮廓顶点的特征对初始轮廓进行迭代调整，得到更精细的分割结果。然而，CurveGCN和DeepSnake利用局部信息聚合机制，传播局部相邻轮廓顶点的特征来细化轮廓，这可能无法纠正较大的预测误差。此外，必须无效地重复局部聚合以访问全局信息。相反，我们提出了一种基于所有轮廓顶点特征的全局轮廓变形方法。
  第三，在当前基于轮廓的方法中，地面真值和预测顶点的配对是固定的，无论预测顶点的连续位置调整（例如，它已经在地面真值边界上或接近另一个地面真值顶点，但离给定的顶点很远）。因此，预先固定的顶点配对并不是最优的，它可能会导致较慢的收敛速度，甚至是错误的预测。
Motivation：在本文中，我们提出了一种多阶段的、高效的基于端到端轮廓的实例分割模型E2EC，它可以完全克服这些缺点。E2EC包含了三个新的组件：1）可学习的轮廓初始化架构；2）多方向对齐(MDA)；以及3）动态匹配损失(DML)函数。
E2EC用一个可学习的轮廓初始化架构取代了手动设计的初始轮廓，它可以处理第一个和第二个问题。该架构包含两个新模块：1）轮廓初始化模块；2）全局轮廓变形模块。轮廓初始化模块根据中心点特征直接对完整的初始轮廓进行回归，这与沿着给定的固定射线[33]的回归长度不同。然后，全局轮廓变形模块基于初始轮廓顶点和中心点的所有特征对初始轮廓进行细化，而不是使用局部顶点的特征。如图1所示，可学习的初始轮廓架构并不依赖于人工设计的初始轮廓(例如，曲线GCN的椭圆或深蛇的八角形)，而是直接从对象实例的中点变形到具有更合理路径的轮廓。
预测标签顶点配对根的困难在于，没有简单的可微计算可以测量预测边界和地面真实边界之间的距离。为了解决第三个问题，一方面，我们提出了多方向对齐(MDA)，它固定了选定的多个轮廓顶点相对于中心点的方向(图1(E2EC)中的黑点)的方向，然后在固定的顶点之间均匀采样，生成地面真顶点。MDA适当地限制了可能的顶点配对和变形路径，在保证性能上限的同时，大大降低了学习的难度。将可学习的初始轮廓体系结构与MDA相结合，消除了目前基于轮廓的方法中普遍存在的不合理的变形路径。
另一方面，我们提出了一种匹配策略，即动态匹配预测的顶点和最合适的标签顶点，而不是固定的配对，以及相应的动态匹配损失(DML)函数。DML消除了基于轮廓的方法中边界过光滑和拐点拟合较差的问题，极大地提高了预测边界细节的质量。
在本研究中进行的实验中，E2EC在KITTIINStance(KINS)数据集[28]、语义边界数据集(SBD)[13]和城市景观[6]数据集上表现出了最先进的性能。对于512张×512图像，E2EC在NVIDIA A6000GPU上实现了36帧每秒的推理速度。如果禁用迭代变形模块，E2EC可以达到50帧/秒的速度，其精度与Deep Snake相当。

方法

在这里插入图片描述
流程图如上图，E2EC通过生成热力图来定位实例中心，然后通过基于中心点特征回归初始偏移量来学习初始轮廓。初始轮廓首先由一个全局变形模块进行变形，然后演化为粗轮廓。变形模块[27]将粗轮廓变形到最终轮廓。

可学习的轮廓初始化结构

该可学习的轮廓初始化体系结构包括轮廓初始化模块和全局变形模块。

初始化轮廓

根据中心点特征，将每个初始轮廓顶点的偏移量相对于中心点直接回归。Dense RepPoints回归了一个无序的点集，然后通过复杂的后处理将该点集转换为一个轮廓或掩模表示。相比之下，E2EC直接回归轮廓（一个有序的点集），而不需要任何后处理。与其他人工设计的初始轮廓（如椭圆或八边形）相比，可学习的初始轮廓更接近地面真实轮廓。另外，可学习初始轮廓的变形路径方向是从中心点到轮廓顶点（如图1所示），保证了变形路径之间没有不利的交集影响收敛。

全局变形

仅用中心点特征直接回归轮廓顶点是一项挑战。同时，仅基于单个轮廓顶点或多个相邻轮廓顶点的局部特征，也难以对轮廓进行有效的变形。在Deep Snake中提出的循环卷积使用局部聚合机制来补充全局信息。但是，在局部相邻顶点上进行的循环卷积需要重复多次才能聚合全局信息，并不能有效地纠正轮廓中的大误差。本文提出了一种简单但更有效的全局聚合机制，即基于中心点特征和所有轮廓顶点特征对初始轮廓进行变形。如图3b所示。首先将N个初始轮廓顶点和中心点的特征连接到一个长度向量(N+1)×C(其中C是顶点特征的通道数)中。然后将该向量输入到MLP模块中（隐藏层和输出层的通道数为N*2）以获得轮廓顶点的偏移预测(一个长度为N×2的向量），将偏移量和初始轮廓坐标进行求和，得到调整后的粗实例轮廓。在我们的实验中，我们设置了N=128和C=64。

在这里插入图片描述

多方向对齐

由于轮廓初始化和预测标签顶点配对的挑战，实际顶点变形路径与理想变形路径之间可能存在偏差，导致一些顶点趋向于沿轮廓方向的调整，收敛速度较慢，甚至预测错误。MDA通过固定几个选定的顶点相对于中心点的方向来解决这个问题，然后在固定的顶点之间均匀地采样地面真相。对不同数量的对齐顶点的采样结果如图4所示。MDA可以有效降低轮廓调整的学习难度，而不降低性能的上限。有趣的是，PolarMask和LSNet是MDA的两个极端情况。如果假设轮廓顶点数为N，对齐顶点数为M，当M=N时，策略退化为PolarMask，其学习难度最低，但性能上界最低。当M=0时，策略退化为LSNet，这是最难学习的情况，性能上限很高。实验发现，M=4的性能最好。当M=4时，学习难度显著降低，但性能的上限没有降低。

动态匹配损失

由于以往研究中使用的预固定顶点配对不是最优的，会导致学习困难，我们提出DML，它动态调整顶点配对的关系，以监督最后一个变形模块的输出。损失由两部分组成：1)预测的顶点指向标签边界上最近的点，如图5(a)所示，然后2)关键标签顶点将最近的预测顶点拉向其位置，如图5(b).所示DML的完整细节如下所述。
在这里插入图片描述
在最好的情况下，顶点应该以最小的成本调整到目标轮廓。对于每个预测的顶点，动态地寻找标签等高线中最近的对应关系是一个复杂的过程。首先，为了简化计算，将相邻的地真顶点分成10个相等的子段。然后将问题转化为发现最近的插值地真轮廓顶点。
在这里插入图片描述

方程（1）描述了通过最小化预测的第i个点和第x个(0<x<N+1)标记点的L2距离来匹配每个预测轮廓顶点的最接近插值地面真顶点(gtipt)的过程。式（2）是DML对应的第一分量。其次，将最近的预测顶点与标签轮廓的关键顶点（由道格拉斯-佩克算法[8]获得）进行动态匹配，以保留预测轮廓的细节。方程（3）描述了将每个关键顶点与最近的预测顶点进行匹配，以最好地保留边界的细节的过程。式（4）是DML对应的第二分量。DML是上述两个分量的平均值，如式（5）所示。DML可以极大地提高预测边界的质量，并解决在Deep Snake and DANCE中发现的过平滑问题。

实现细节

检测器

E2EC可以基于任何检测器构造，只需要将bbox分支的输出大小从H×W×2改为H×W×(N×2)，即可直接回归具有N个顶点的初始轮廓。在本研究的实验中，为了与其他方法进行公平的比较，我们使用CenterNet[39]作为E2EC的检测器。

损失函数

使用平滑L1损失来监督轮廓初始化分支、全局变形分支和第一个细化变形模块。对损失的定义为：
在这里插入图片描述
其中N是轮廓顶点的数量，˜xiniti预测初始轮廓顶点，˜x粗我预测粗轮廓顶点，xgti标签轮廓顶点，和˜xiter1i是轮廓顶点变形后与第一个变形模块的细化步骤。
使用DML函数监督最后一个变形模块，如式（9）所示，其中˜xiter2i为与第二个变形模块变形后的轮廓顶点。然后将细化变形模块的损失定义为方程（10）。
在这里插入图片描述