目的
- 输入一张图片,得到图片上为平面的部分,并给出平面的三维信息(单位法向)。
大致过程
这是一个二阶段的学习。第一阶段为从单张图片中得到不同平面的分割,第二阶段为对不同的分割估计平面方程。但两个阶段是一起训练的,因此也是end-to-end manner。训练时,需要包含每张图片每个像素所属平面区域和像素单位法向信息。
分割
- 统一encode到embedding的特征。
- 判断每一像素是否为平面。采用了segmentation decoder(第一个decoder)模型,对每个像素估计一个概率,判断它是不是平面。
- 对同一平面像素进行聚类。采用了embedding decoder(第二个decoder)模型,对同一平面点的embedding feature进行吸引,对不同平面点的embedding feature进行排斥。
- 综合上述两步,对通过第一个decoder像素的embedding feature进行聚类(由于像素点非常多,因此使用了Efficient Mean Shift Clustering的算法,得到图片到不同平面的分割。
估计
- 对每一像素上的法向和Ground Truth进行拟合。采用了parameter decoder(第三个decoder)模型,对每个像素估计概率,然后计算和Ground Truth之间的L1损失。
- 由于是平面,因此我们也需要每个像素上的法向尽可能朝向一致。对第三个decoder的法向,我们加权(权重来自聚类&