【论文阅读】ES6D: A Computation Efficient and Symmetry-Aware 6D Pose Regression Framework

Lies.

已于 2022-05-13 01:38:57 修改

阅读量3.8k

点赞数 1

分类专栏： 6D位姿估计/追踪文章标签：计算机视觉人工智能 cnn vr ar

于 2022-04-10 15:38:57 首次发布

本文链接：https://blog.csdn.net/weixin_46564151/article/details/124079247

版权

4 篇文章 5 订阅

订阅专栏

随缘更新

一篇被CVPR 2022接收的6D位姿估计方向的论文，个人觉得这篇文章很有价值，但是源码暂时没有放出。

本文主要提出了一个regression framework，用来从单张RGB-D图像中预测物体的6DoF姿态，具体来说主要有以下几点：

本文所提出的 XYZNet 同时兼具efficient和simple两大优点
- efficient，指用fully convolutional network高效的从RGB-D数据中提取point-wise features，且可以很好的处理对称物体。
- simple，指可以直接回归出物体的6D位姿而不需要后处理进行二次提炼（directly regresses the 6D pose without any post refinement）
本文提出一种新的symmetry-invariant pose distance metric，称为average (maximum) grouped primitives distance，即A(M)GPD，可以用于当作loss也可以用于结果的evaluate。A(M)GPD拥有以下性质：
- all minima in the loss surface are mapped to the correct poses，即：能使loss达到最小值所对应的位姿一定是正确位姿（这个在相关工作第二点处提到，可以往下看）。
- the loss function is continuous，神经网络想要正常梯度下降，loss函数必须连续。
在YCB-V和T-LESS两大数据集上的结果证实了本文所提出的framework能保证高accuracy的基础上拥有low computational cost这一优势。

在这里插入图片描述

主要分为两个阶段：

得到目标物体的mask和bounding box

本文中第一阶段由PoseCNN的segmentation network完成，核心在第二阶段。
将masked depth pixels标准化后转换为 XYZ map，然后将其于RGB patch结合起来通过本文提出的ES6D提取point-wise features

将point-wise features通过multi-task convolution heads得到pointwise translation offsets ( $\Delta t_i$ ), quaternions ( $q_i$ ), and confidences ( $c_i$ ，即置信度)，最后拥有最大confidence的位姿作为预测位姿。

（写不动了，休息一下，有时间再更新详细内容）

主要分为三部分：

将point-wise features作为multi-task convolution heads的输入，得到三个输出（分别对应三个任务）：

可以看出上述过程都是回归任务，且纯靠卷积完成

关注