论文阅读-《Joint Object and Part Segmentation using Deep Learned Potentials》

最新推荐文章于 2021-07-16 16:35:49 发布

yj_isee

最新推荐文章于 2021-07-16 16:35:49 发布

阅读量2.1k

点赞数

分类专栏： Computer Vision 计算机视觉论文研读

本文链接：https://blog.csdn.net/yaoqi_isee/article/details/70210659

版权

本文介绍了一种联合语义物体和部件分割的方法，利用深度学习潜在模型。通过语义组合部件（SCP）概念，允许不同物体间的部件共享，并通过两路全卷积网络进行对象和SCP分割。随后的融合模型优化了预测结果，FCRF进一步联合优化物体和部件的分割。实验表明，这种方法在物体和部件分割上表现优秀。

摘要由CSDN通过智能技术生成

ICCV 2015 UCLA

Abstract

从图像中分割出物体并把他们分解成各自的semantic part是CV中detailed object understanding的基础。作者在这篇论文中提出了一种joint semantic object and part segmentation的方法。通过利用object-level的信息来引导part segmentation，同时part segmentation的结果也可以用来refine object segmentation的结果。作者首先引入了semantic compositional part(SCP)这一概念，将不同种类object各自的part根据他们的相似程度进行分类，允许不同的object之间进行part sharing。然后作者构建了一个two stream的FCN,一个用来做object segmentation，一个用来做SCP segmentation。同时通过后续的model fusion对object segmentation进行refine，进一步构建了一个FCRF，来同时优化object 和part的预测结果。

SCP_1

上面这张图表示joint object and part segmentation的结果。

Framework

SCP_2

整体的框架如上图所示，基本的流程在Abstract里面介绍过了。下面具体分析其中的component

1.Semantic compositional part

我们在进行part segmentation的时候，不同的object的某一个部分的part可能长得比较相似，因此在进行part segmentation之前，作者首先将所有object的part进行了grouping，比如cow leg和horse leg就归为leg，但是有的部位，比如说head,cow head和horse head差别还是挺大的，因此这两种part就没有合并在一起。作者构建的scp grammar如下图所示:

SCP_3

我觉得作者的意思是，如果part segmentation的时候只是按照 (l_s) 来分类的话，同一个类里面可能差别会比较大，比如马头和牛头，但是完全按照马头、牛头、马尾巴、牛尾巴这种object+part来对所有part进行分类的话，不仅要分的class很多，而且像马尾巴、牛尾巴这种语义很接近，外观很接近的part就很难区分。所以作者自己构建了一个semantic compositional part，把所有object class里面具有区分度的part拿出来。通过scp分类，再结合object class，就完全可以恢复出这个part是哪种动物的哪种part了。就算不结合object class的信息，再进行scp segmentation之后，也可以将horse head和cow head统一映射到head。

2.Deep part and object potential

这一小节主要讨论joint prediction。回到上面的框图，在经过两路FCN之后，我们得到scp segmentation和object segmentation的初步结果，接下来将两个初步分割结果concatenate起来，通过一个后续的fusion，得到refine之后的object potential。这里主要是依靠part segmentation提供更加细致的边界。当然，反之object分割的结果用来refine scp分割结果的效果没有提升，原因可想而知。

这里需要注意的一点是，scp segmentation和object segmentation需要不同scale的输入。这个在DPM里面也有体现，在DPM里面，root filter作用在较小scale的图像上进行粗定位，然后part filter作用在更大scale的图像上进行part的定位。就好比我们对一个物体要看的更仔细，需要细看到物体的某个部分，我们通常需要放大图像。