2020.09.23读MaskedFusion: Mask-based6D object pose estimation

1.背景信息

1.输入数据形式: RGBD图像
2.模块化组合框架,每个sub-task都可以用好的模块替换
3.个人感觉跟densefusion非常像

方法

网络结构

整个结构分为三个子任务:
sub-task1:image segmentation
通过语义分割对scene中每个对象检测和分类—>二进制mask
sub-task2:6D pose estimation
对每个对象从不同类型的数据中提取特征—>逐像素融合—>6D pose estimator—>6Dpose
sub-task3: pose refinement(可选)
优化部分完全采用了densefusion给出的优化网络
在这里插入图片描述
其中PointNet提取了500个features
cropped RGB image的FCN是ResNet-18去掉最后的全连接层,提取出500个features
cropped mask image的FCN是单通道输入的ResNet-18去掉最后的全连接层,提取出500个features

所有的features串联成一个single vector,然后用一个卷积层进行Feature Fusion。
6D Pose估计器有两个分支,每个分支都是由4个卷积层构成,一个分支用于回归平移向量,另一个分支用于回归旋转向量。

损失函数

在这里插入图片描述
这跟densefusion中的一模一样,densefusion是逐像素都算出一个R和t,最后用了一个最大投票的方式决定最终的位姿估计。但是作者在方法中所描述的3*500个features串联的形式没有写出是逐像素的,这里上下文有些不符,这里损失函数怀疑能否直接用在这篇文章中。

实验

实验与densefusion也非常相似,用的LineMod和YCB数据集进行评估。

衡量标准

ADD:
在这里插入图片描述
ADD-S:
在这里插入图片描述
这里的ADD-S我个人理解,对于像glue这样的物体,估计它绕圆柱轴旋转的角度比较困难,并且这个角度对于实际机器人抓取意义不大(但是对于AR还是意义重大的),所以用ADD-S不考虑绕对称中心轴旋转的那个角度。
如下图所示,ADD-S不能保证target和估计target在圆柱轴上的转角相等。

在这里插入图片描述
但对于实验结果来看,ADD-S所评价的eggbox和glue都几乎达到100%的准确率,这确实让人不解???

结果

lineMod

在这里插入图片描述

YCB

在这里插入图片描述
在这里插入图片描述

这里需要声明的是:
作者说densefusion用了标准groundtruth的mask作为测试输入,通过查看densefusion的代码,我认为作者说的是有问题的。
Densefusion在训练时候确实用的groundtruth的mask作为输入,但是在测试的时候,densefusion用的也是自己语义分割网络生成的结果。
所以作者在这里对比的自己的pipeline的结果实际上跟densefusion并没有明显的改善。

读后感

1.这篇文章跟densefusion整体思路非常接近,做出的结果与densefusion相差不是特别大。
2.文章号称的maskedfusion,其中语义分割出来的mask实际在densefusion中也有使用,并没有创新性。
3.作者在总结说未来会关注更多的实例分割来取代语义分割,以提升整体网络性能。我觉得这不是一个好的想法,应该集中精力去改进6D位姿估计器网络,而不是主要从分割下手。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值