Min Bai & Raquel Urtasun
UfT
1. 传统的分水岭算法简介
图像处理中的分水岭算法常用来做图像区域分割(segmentation),基本的思路是计算一张energy map来表示图像,其中物体区域的energy和其他非物体区域的energy差别较大,从而形成包络物体的分水岭,称包络线为watershed line,称物体区域为catchment basins(一般假设物体区域的energy低)。如下图所示:
分水岭算法以一种类似注水的方法找到物体的区域,并通过抑制相邻catchment basins的水交汇,达到分割物体的目的。
分水岭算法通常采用梯度作为energy map,这样的话basin就对应比较平滑的区域。但是分水岭算法的一大局限在于其很容易导致过分割。采用marker-controlled的方法,选择marker又是一个很heuristic的问题。
2. Deep Watershed Transform
作者的基本思路是利用网络来学习分水岭算法里的energy map,目的是希望学习得到的watershed line就表示instance的边界。这样直接应用分水岭算法就可以实现instance segmentation了。下图表示传统分水岭算法使用梯度大小得到的energy map和作者学习得到的energy map的对比:
可以看到,上图中一共有3个instance,如果使用梯度大小作为energy map,容易受到噪声的干扰,从而分割出7个instance,采用学习得到的energy map,能够更好的表示一个instance。
直接学习instance之间的边界是比较困难的,作者的做法分为两步,首先训练一个Direction Network学习instance内部点到边界的方向,然后根据这个direction map再训练一个Watershed Transform Network学习instance内部点的energy level,最后拿energy map应用分水岭算法。
整体的网络框架如下所示:
2.1. Direction Network
该网络的输入为RGB图像以及语义分割的map(加入分割的结果作为输入是为了让网络只关注目标区域,忽略背景区域)。
目标是学习energy下降的方向(instance边缘的能量低,instance中心的能量高,所以下降的方向指向instance的边界)
对于每一个pixel,作者用二维单位向量表示该下降方向的真值,如下:
其中 Dgt(p)<