2020.09.23读MaskedFusion: Mask-based6D object pose estimation-CSDN博客

本文链接：https://blog.csdn.net/wolfcsharp/article/details/108745882

MaskedFusion: Mask-based6D object pose estimation

1.背景信息
方法
- - 网络结构
  - 损失函数
实验
- - 衡量标准
结果
- - lineMod
  - YCB
读后感

1.背景信息

1.输入数据形式： RGBD图像
2.模块化组合框架，每个sub-task都可以用好的模块替换
3.个人感觉跟densefusion非常像

方法

网络结构

整个结构分为三个子任务：
sub-task1：image segmentation
通过语义分割对scene中每个对象检测和分类—>二进制mask
sub-task2：6D pose estimation
对每个对象从不同类型的数据中提取特征—>逐像素融合—>6D pose estimator—>6Dpose
sub-task3: pose refinement(可选)
优化部分完全采用了densefusion给出的优化网络
在这里插入图片描述
其中PointNet提取了500个features
cropped RGB image的FCN是ResNet-18去掉最后的全连接层，提取出500个features
cropped mask image的FCN是单通道输入的ResNet-18去掉最后的全连接层，提取出500个features

所有的features串联成一个single vector，然后用一个卷积层进行Feature Fusion。
6D Pose估计器有两个分支，每个分支都是由4个卷积层构成，一个分支用于回归平移向量，另一个分支用于回归旋转向量。

损失函数

在这里插入图片描述
这跟densefusion中的一模一样，densefusion是逐像素都算出一个R和t，最后用了一个最大投票的方式决定最终的位姿估计。但是作者在方法中所描述的3*500个features串联的形式没有写出是逐像素的，这里上下文有些不符，这里损失函数怀疑能否直接用在这篇文章中。

实验

实验与densefusion也非常相似，用的LineMod和YCB数据集进行评估。

衡量标准

ADD：
在这里插入图片描述
ADD-S：

这里的ADD-S我个人理解，对于像glue这样的物体，估计它绕圆柱轴旋转的角度比较困难，并且这个角度对于实际机器人抓取意义不大(但是对于AR还是意义重大的)，所以用ADD-S不考虑绕对称中心轴旋转的那个角度。
如下图所示，ADD-S不能保证target和估计target在圆柱轴上的转角相等。
在这里插入图片描述
但对于实验结果来看，ADD-S所评价的eggbox和glue都几乎达到100%的准确率，这确实让人不解？？？

结果

lineMod

在这里插入图片描述

YCB

在这里插入图片描述

这里需要声明的是：
作者说densefusion用了标准groundtruth的mask作为测试输入，通过查看densefusion的代码，我认为作者说的是有问题的。
Densefusion在训练时候确实用的groundtruth的mask作为输入，但是在测试的时候，densefusion用的也是自己语义分割网络生成的结果。
所以作者在这里对比的自己的pipeline的结果实际上跟densefusion并没有明显的改善。

读后感

1.这篇文章跟densefusion整体思路非常接近，做出的结果与densefusion相差不是特别大。
2.文章号称的maskedfusion，其中语义分割出来的mask实际在densefusion中也有使用，并没有创新性。
3.作者在总结说未来会关注更多的实例分割来取代语义分割，以提升整体网络性能。我觉得这不是一个好的想法，应该集中精力去改进6D位姿估计器网络，而不是主要从分割下手。