SemanticImage Segmentation with Task-Speciﬁc Edge Detection Using CNNs 翻译

最新推荐文章于 2022-02-27 09:58:16 发布

潜水火龙果

最新推荐文章于 2022-02-27 09:58:16 发布

阅读量720

点赞数

分类专栏：论文文章标签： deeplab trained Domain Edge Detection semantic segmentation

论文专栏收录该内容

2 篇文章 0 订阅

订阅专栏

《SemanticImage Segmentation with Task-Speciﬁc Edge Detection Using CNNs anda Discriminatively Trained Domain Transform》因为赶时间看，所以翻译了部分重要的内容供参考。

3提出的模型

3.1模型概览

（第二段）我们添加了第二个组件，我们称之为EdgeNet。EdgeNet通过利用DeepLab中间层的特性来预测边缘。在级联前，通过双线性插值对特征进行调整，使其具有相同的空间分辨率。采用一个1×1的卷积层和一个输出通道进行边缘预测。采用ReLU进行边缘预测，使预测在零到无穷的范围内。

我们系统中的第三个组件是域变换(DT)，它是一个保持边缘的ﬁlter，它可以通过行和列之间可分离的一维递归滤波器来实现非常有效的滤波。

虽然传统上DT用于图形应用[16]，我们使用它来ﬁlter原始的cnn语义分割分数，以便更很好地与对象边界对齐，并以EdgeNet生成的边缘地图为指导。

3.2递归滤波域变换

域变换采用两个输入：(1)被过滤的原始输入信号x，在我们的例子中它对应于网络DCNN的分割分数；(2)一个正的“域变换密度”信号d，我们将在下面的章节中详细讨论它的选择。DT的输出是过滤的信号y。我们将使用DT的递归公式，因为它的速度和高效，虽然滤波可以凭借其他技术应用[16]。

对于长度为N的一维信号，设置y1=x1，对于循环的i=2，.，N，我们可以计算输出：

其中σs是输入空间域上滤波器内核的标准差。直观地，域变换密度di≥0的强度通过控制原始输入信号xi在计算当前位置的滤波信号值时对原位置y1的相对贡献来确定扩散/平滑的量。wi∈(0，1)的值就像一个门，它控制有多少信息从像素i−1传播到i。当di很小时，我们有充分的扩散，从而形成wi=1和yi=−1。另一方面，如果di很大，则wi=0，扩散停止，导致I=xi。用等式进行过滤，（1）是不对称的，因为当前输出只依赖于以前的输出。为了克服这种不对称，我我们过滤1-D信号两次，第一次从左到右，然后从右到左输出左到右。

对二维信号域变换的滤波以一种可分离的方式工作，沿每个信号维数依次使用一维滤波。也就是说，水平传递是沿着每行，然后是沿每一列的垂直传递(自上而下和自下而上)。在实践中，当迭代中K>1，双线程1-D滤波过程可以抑制由2-D信号产生的“条带”伪迹[16，图4]。对于每次迭代，我们减少了DT滤波器核的标准差，这个要求所有参数的和等于期望的方差。

如上公式(3)，通过公式(2)，在第k次迭代中，用σk代替σs计算权值。域转换密度值di定义如下：

其中gi≥0是“参考边”，σr是ﬁlter内核在参考边缘映射范围内的标准差。请注意，gi的值越大，模型就越认为在像素i处存在强边缘，从而抑制扩散(比如di→∞和wi=0)。标准DT[16]通常采用彩色图像梯度

但接下来我们证明了用学习好的dcnn计算参考边映射可以得到更好的结果。

3.3可训练的域变换滤波

我们提出的方法的一个新方面是将DT输出处的分割误差通过DT反向传播到它的两个输入上。这允许我们使用DT作为CNN中的一层，从而使我们能够共同学习DCNN，该DCNN计算x中的粗糙分割的分数映射和g中的参考边缘映射。

我们在公式1中演示了DT反向传播对一维滤波过程的影响，其前向传播在图3(A)中作为计算树示出。我们假设每一个节点yi不仅影响后续节点y（i+1）。而且提供了一个后续层，从而在反向传播过程中也从该层接收到梯度贡献∂L/∂YI。类似于时间上的标准反向传播，我们展开公式1的递归。反过来对于i=N，.，2，如图3(B)中对y导数值进行了更新，并计算了关于x和w的导数，

其中，∂L∂xi和∂L∂wi初始化为0，而∂L∂yi最初被设置为由后续层发送的值。请注意，所有滤波阶段(即水平传递中的左到右/右到左，垂直通道内自上而下/自下而上)权值wi共享并且K在迭代，每一次迭代都会导致偏导数。

利用这些偏导数，我们可以产生相对于参考边gi的导数。将公式(4)带入方程(2)

然后，根据链规则，关于gi的导数是

然后将此梯度进一步传播到深卷积神经网络，该神经网络生成用作DT输入的边缘预测。

3.4门控递归单元网络

方程1 定义了DT滤波作为递推运算。与其他最近的RNN公式联系起来是很有趣的。在这里，我们建立了一个精确的连接门控递归单元(GRU)RNN架构[8]，最近提出的顺序文本数据建模。GRU使用更新规则。

与公式1相比较。我们可以把GRU的“更新门”ZI和“候选激活”˜yi联系起来，其中DT的权重和原始输入信号的定义如下：ZI=1−wi和˜Ii=xi。

GRU更新门Zi定义如下zi=σ(Fi)，其中fi是激活信号和σ(T)=1/(1 e−t)。与公式(9)相比较，得出DT参考边映射gi与GRU激活fi之间的直接对应关系：

实验验证

4.1实验计划

训练

采用两步训练方法。我们对DeepLab组件进行了训练，然后我们微调了整个模型。特别地，在第一阶段，我们使用与[5]完全相同的设置来训练deeplab。在第二阶段，我们使用10−8的小学习率来进行微调，我们加入了零均值方差是10-5次方的高斯变量初始化EdgeNet的附加卷积层，因此一开始EdgeNet预测不出边缘，随后渐渐开始学习边缘进行语义分割，训练时长11.5小时。

4.2实验结果

我们首先在提出的模型上对验证集设置超参数，包括(1)EdgeNet的特征，(2)域变换的超参数(即迭代次数、σs和σr)。我们还对不同的边缘预测方法进行了实验研究。在此基础上，对模型进行了分析，并对官方测试集进行了验证。

EdgeNet的特征：我们利用了来自DeepLab的中间特性。我们首先研究了VGG-16

的哪些层在DT超参数上具有更好的性能。如表1所示，在Pascal VOC特征，基线DeepLab获得62.25%的Miou。我们开始开发卷积层3 3的特性，它具有大小40的感受野。该大小与通常用于边缘检测的贴片大小相似[11]。结果表明，该模型的性能比基线提高了65.64%，比基线提高了3.4%。当使用卷积层22、33、43的特征时，性能可进一步提高到66.03%。但是，如果我们利用卷积层1 2或卷积层 5 3的特性，我们没有观察到任何提升的现象。在其余涉及EdgeNet的实验中，我们从卷积层22，卷积层33和卷积4 3中获得了一些特征。

DT域迭代次数：

域变换域转换需要迭代多次双进程一维滤波，以避免“条带”效应[16，图4]。我们对所提出的模型进行了域变换的K迭代训练，并在测试过程中进行了相同的K迭代。由于有两个超参数σs和σr(seq.(9)，我们还改变了它们的值，以研究区域变换中K迭代的变化所带来的影响。如图4所示，在我们提出的模型中，使用K=3迭代来进行区域变换，可以获得σs和σr的几个不同值。

研究域变换σs、σr并且与其它检测器比较：

我们研究了不同的σs和σr对域变换的影响。我们还比较了用于区域变换的生成边缘预测的其他方法：(1)DT-Oracle，其中使用了地面目标边界，这是我们方法的上界。(2)提出的DT-EdgeNet，其中边是由EdgeNet产生的。(3)dT-SE，其中边是由结构边(SE)[11]发现的。(4)DT-梯度，其中图像(颜色)梯度大小为Eq。(5)用于标准域变换[16]。我们为这些方法寻找最优的σs和σr。首先，我们设置σs=100，并在图5(A)中改变σr。我们发现σr的不同值对DT-Oracle、DTSE和DT-梯度的性能有很大的影响，因为它们是由其他“插入”模块(不是联合微调)生成的。我们还展示了使用密集CRF的基本DeepLab和DeepLab-CRF的性能.然后，我们设置我们找到的σr的最优值，并在图5(B)中改变了σs。我们发现，只要σ的≥90，DT-EdgeNet、DT-SE和DT-梯度就表现的不是很重要，.在找到σr和σs的值后，我们将它们用于其余的实验。

我们进一步可视化了我们的DT-EdgeNet在图6中学习到的边缘。如第一行所示，当σr增加时，学习到的边缘不仅包括对象边缘，也包括了背景的纹理，这降低了我们方法的语义分割性能(即噪声边缘使相邻像素之间的信息难以传播)。如第二行所表示，随着σ的变化，只要它的值足够大(即≥90)，它就不会很大的改变学习到的边。

我们在表2中给出了每个方法在验证集上的表现(σs和σr的最佳值)。dt-梯度方法比基线深度实验室提高1.7%。虽然DTSE比DT梯度好0.9%，但是DT-EdgeNet进一步提高了性能(比基线提高了4.1%)。尽管DT-EdgeNet比DeepLab-CRF低1.2%，但它比我们稍后讨论的速度快几倍。此外，我们还发现，DT-EdgeNet和密集CRF相结合可以获得最佳性能(比DeepLab-CRF提高0.8%)。在这个混合DT-EdgeNet +DenseCRF方案中，我们在一个额外的完全连接的CRF步骤中对DT滤波分数映射进行了后处理。

trimap：

与[23，26，5]相似，我们量化了目标边界附近模型的精度。我们使用PascalVOC 2012验证集上注释的“void”标签。注释通常对应于对象边界。我们计算位于“空”标签的窄带(称为trimap)内的像素的平均IOU，并改变波段的宽度，如图7所示。

定性结果：我们在PASCALVOC2012验证数据集上显示了一些语义分割结果，如图9所示。DT-EdgeNet视觉上的改进超过了基线DeepLab和DT-SE.此外，当比较结构化边缘和我们的EdgeNet学习到的边缘时，我们发现EdgeNet能够更好地捕捉对象的外部边界，并且对内部边缘的响应小于SE。我们还在图9的下两行显示了失败案例。首先是因为来自DeepLab的错误预测造成的，第二个原因是当背景杂乱时，定位目标边界很困难。

测试集的结果：

在找到了最佳的超参数后，我们在测试集上对我们的模型进行了评估。如表4顶部所示。DT-SE比基本的deeplab提高2.7%，DT-EdgeNet可以将性能进一步提高到69.0%(比基线提高3.9%)，比为了平滑结果使用的完全连接的CRF后处理(即DeepLab-CRF)提高1.3%。然而，如果我们也加入一个完全连接的CRF作为我们的模型的后处理，我们可以进一步提高到71.2%的性能。

使用MS-Coco预训练的模型：

我们用[34]这一更强的基线进行了另一项实验，这时的DeepLab使用MS-COCO 2014数据集进行了预训练[29]。我们的目标是测试我们是否还能在所提议的方法上获得改进，超过这个更强的基线。我们使用与以前相同的超参数的最优值，并在表3中报告验证集的结果。.我们仍然观察到DT-SE和DT-EdgeNet对基线的改善分别为1.6%和2.7%.此外，在DT-EdgeNet中增加一个完全连接的CRF，还可以带来1.8%的改进。然后我们在Tab底部的测试集上评估模型如表4。我们最好的模型DT-EdgeNet，提高了基线深度实验室2.8%，而它比DeepLab-CRF低1.0%.当将DT-EdgeNet与完全连接的CRF相结合时，在测试集上达到了73.6%.注意，当使用更强的基本模型时，DT-EdgeNet和DeepLab-CRF之间的差距变得更小.

多尺度输入：

在Pascal VOC 2012排行榜上的最好的模型通常采用多尺度特性(多尺度输入[10，28，7]或来自DCNN中间层的特性[31，19，5])。在此基础上，我们进一步将本文提出的判别训练域变换和[7]模型相结合，在测试集上获得76.3%的性能，落后于现有最佳模型[28]的1.5%，后者联合训练CRF和DCNN.

EdgeNet on BSDS500：

我们进一步预测了在BSDS 500测试集上的边缘检测性能[1]。我们采用标准指标来评估边缘检测的准确性：设置好的扫描轮廓阈值(ODS Fcore)、每幅图像最佳阈值(ois F-得分)和平均精度。我们还将一种标准的非最大抑制技术应用于EdgeNet生成的边缘映射以进行评估。我们的方法达到ODS=0.718，OIS=0.731，AP=0.685。如图8所示，有趣的是，我们的EdgeNet产生了相当好的性能(仅比结构化边缘[11]差3%)，而我们的EdgeNet没有在BSDS 500上进行培训，在2012年Pascal VOC培训期间也没有边缘监督。

与密集CRF相比：

采用全连通CRF是提高分割性能的有效方法。我们的在imageNet和coco数据集上预训练的最佳模型(DT-EdgeNet)分别比DeepLab-CRF 在PASCALVOC 2012测试集上低1.3%和1.0%。然而，我们的方法在计算时间上要快很多倍。为了量化这一点，我们在50 Pascal VOC 2012验证数据集计算了推理时间。如表5所示。在CPU用时方面，在带有Intel i7-4790K CPU的机器上，优化的密集CRF实现[26]的平均迭代次数为10次，平均每次迭代时间为每张图片830 ms，虽然我们用K=3迭代来实现域转换(每一次迭代由可分离的双线程滤波交叉行和列组成)需要180 ms/映像(比图像快4.6倍)。在NVIDIA Tesla K40 GPU上，我们的GPU实现了域转换，进一步将平均计算时间减少到25 ms/图像。在我们的GPU实现中，所提出的方法(EdgeNet DT)的总计算成本为26.2 ms/映像，这与DeepLab所要求的145 ms/映像相比，开销不大(约18%)。注目前还没有可公开使用的密集CRF推断的GPU实现。

5结论

我们提出了一种学习边界映射的方法，该方法是适用语义图像分割的一个统一的系统，该系统以端到端的方式进行鉴别训练。该方法建立在区域变换的基础上，这是一种传统上用于图形应用程序的保持边缘的滤波。我们证明了通过域变换的反向传播可以让我们学习一个任务特定的边缘映射优化的语义分割。对深度全卷积网络生成的原始语义分割图进行域变换过滤，提高了目标边界附近的定位精度。由此产生的方案比以前用于这一目的完全连接的CRF快几倍。

潜水火龙果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SemanticImage Segmentation with Task-Speciﬁc Edge Detection Using CNNs 翻译

《SemanticImage Segmentation with Task-Speciﬁc Edge Detection Using CNNs anda Discriminatively Trained Domain Transform》因为赶时间看，所以翻译了部分重要的内容供参考。 3提出的模型3.1模型概览（第二段）我们添加了第二个组件，我们称之为EdgeNet。Edge...
复制链接

扫一扫