PAPER:https://arxiv.org/abs/1708.02551
CODE:https://github.com/DavyNeven/fastSceneUnderstanding
一、整体框架、流程
本文提出了一种基于量度学习Metic learning的用于语义分割和实例分割的方法。自定义LOSS训练CNN学习到一种metric,即从像素空间到高纬度空间的映射。使得同类(同实例)物体中的像素映射到高维空间后,得到的embedding vector之间的距离(L1、L2距离)相近,从而使用聚类的方式完成分割任务。
其流程简介如下:
首先,上图是输入图片,下图是实例分割的ground truth。
下面用一个二维的embedding空间来形象的解释系统的工作流程。如图所示,第二行显示的是通过不同迭代次数后的CNN所得的映射二维空间(这