【论文阅读】Coupled Iterative Refinement for 6D Multi-Object Pose Estimation

Lies.

已于 2022-05-15 00:21:43 修改

阅读量1.1k

点赞数 5

分类专栏： 6D位姿估计/追踪文章标签：计算机视觉人工智能算法 ar vr

于 2022-05-10 12:00:29 首次发布

本文链接：https://blog.csdn.net/weixin_46564151/article/details/124685164

版权

6D位姿估计/追踪专栏收录该内容

4 篇文章 5 订阅

订阅专栏

随缘更新

一篇被CVPR2022接收，有关6D位姿估计的文章

论文链接：Coupled Iterative Refinement for 6D Multi-Object Pose Estimation

论文代码：Github

文章目录

主要内容和贡献

本文提出了一个能够利用几何信息的端到端的可微分结构 (differentiable architecture)，用一种紧密耦合的方式迭代地对pose和correspondence共同进行refine，动态地移除外点 (outliers)，进而提高预测准确率。

本文提出的结构命名为 BD-PnP，即 Bidirectional Depth-Augmented Perspective-N-Point

“We use a novel differentiable layer to perform pose refinement by solving an optimization problem.”

模型架构

输入：一张RGB-D图片

输出：一组物体的位姿估计

三个阶段：1和2沿用了CosyPose的方法，本文主要聚焦3

object detection
pose initialization
pose refinement，用subpixel reprojection error（子像素重投影误差）把初始的coarse位姿转变成refined位姿

预备知识

对于给定的有纹理的三维模型，可以用PyTorch3D和相机的内参矩阵 $K_i$ 、外参矩阵 $G_i$ 渲染不同视角下的图像和深度图

$G_{i}=\left(\begin{array}{ll} R & t \\ 0 & 1 \end{array}\right)$ , $K_{i}=\left(\begin{array}{ccc} f_{x} & 0 & c_{x} \\ 0 & f_{y} & c_{y} \\ 0 & 0 & 1 \end{array}\right)$

$G_i$ 是物体在相机坐标系下的位姿，则对于一张输入图片来说， $G_0$ 是输入图片的位姿， $\{G_1,\cdots,G_N\}$ 是N张渲染图片的位姿，定义两种方法用来索引二者点之间的映射关系：

① $\mathbf{x}_{i \rightarrow 0}^{\prime}=\Pi\left(\mathbf{G}_{0} \mathbf{G}_{i}^{-1} \Pi^{-1}\left(\mathbf{x}_{i}\right)\right)$ 表示渲染图片到输入图片的点的映射。

② $\mathbf{x}_{0 \rightarrow i}^{\prime}=\Pi\left(\mathbf{G}_{i} \mathbf{G}_{0}^{-1} \Pi^{-1}\left(\mathbf{x}_{0}\right)\right)$ 表示从输入图片到渲染图片的点的映射。

其中 $\Pi$ 和 $\Pi^{-1}$ 是 depth-augmented pinhole projection functions （深度增强的针孔投影函数），不仅能转换图片上点的坐标，还能转换帧之间的逆深度（深度的倒数）

$\Pi(\mathbf{X})=\left[\begin{array}{l} X / Z \\ Y / Z \\ 1 / Z \end{array}\right] \quad \Pi^{-1}(\mathbf{x})=\left[\begin{array}{l} x / d \\ y / d \\ 1 / d \end{array}\right] \quad \mathbf{x}=\left[\begin{array}{l} x \\ y \\ d \end{array}\right]$

注意，上面的像素坐标要用内参矩阵 $K_i$ 进行规范化。

我们最终的目标就是要不断优化G0（输入图片的位姿）使得xi-0正确，也就是使渲染图片到输入图片的点的映射是正确的
目标检测：为了检测到输入图片中的物体，用bounding box截取出来。
初始化：并行处理每个候选物体，得到 $G_0^{(0)}$
特征抽取和相关性计算：

对于给定的初始位姿，在位姿估计的基础上渲染几个视图，然后在仰角、俯角、偏航角上加上或减去22.5度，总共得到7个渲染视图。

对每个渲染图片，本文的网络结构都得到输入的图片（经过裁剪后）和渲染图片之间的双向dense correspondence。

渲染图片的位姿是已知的，输入图片的物体位姿是要估计的。

所有图片都抽取一个 $\frac{H}{4}\times \frac{W}{4}$ 的特征图，对每一个“image-render”对都建立两个correlation volume，一个是从输入图片到渲染图片的，一个是从渲染图片到输入图片的。correlation volume的计算方式是对所有特征向量对做点积运算得到的，然后像RAFT一样把correlation volume的最后两个维度做池化，产生一个4层的相关性金字塔（correlation pyramids），这个金字塔包含了匹配所用的correlation features。

Coupled Iterative Refinement

用下图的结构生成一个姿态估计的更新序列。
在这里插入图片描述

左下角部分的输入和 $\Pi$ 主要包含下面两个部分：

$\mathbf{G}=\{G_0,G_1,\cdots,G_7\}$ 是所有位姿的集合，其中 $G_1$ 到 $G_7$ 是渲染图片的位姿，是固定的， $G_0$ 是输入图片的位姿，是可变的。
计算 $G_0$ 到 $G_i(i=1,2,\cdots,7)$ 的dense correspondence field $x_{0\to i}$
计算 $G_i$ 到 $G_0$ 的dense correspondence field $x_{i\to 0}$

这部分体现的是模型的bidirection

$x_{i\to 0}$ 的维度是 $H\times W\times 3$ ，表示渲染图片 $i$ 中的每个像素在输入图片的2D坐标，还有逆深度信息。

同时得到corresponding correlation pyramid

Correlation Lookup

产生 $\mathbf{s}_{i\to 0}$ 和 $\mathbf{s}_{0\to i}$

用 $x_{i\to 0}$ 从相关性金字塔中索引（RAFT的方法），correlation lookup对每个点都在半径为 $r$ 的范围内对相关金字塔的每一层进行索引，得到 $L$ 个correlation feature，最终得到一个correlation feature的映射关系 $\mathbf{s}_{i\to 0}\in \mathbb{R}^{H\times W\times L}$
同理，对 $x_{0\to i}$ 得到 $\mathbf{s}_{0\to i}\in \mathbb{R}^{H\times W\times L}$

GRU Update

产生 $h_{i\to 0},h_{0\to i}$ 、 $\mathbf{r}_{i\to 0},w_{i\to 0}$ 和 $\mathbf{r}_{0\to i},w_{0\to i}$

结构图的GRU是个 $3\times 3$ 的convolution GRU，对每个"image-render"对来说，GRU的输入有四个：（以 $i\to 0$ 的方向为例， $0\to i$ 的同理）

correlation feature $\mathbf{s}_{i\to 0}$
hidden state $h_{i\to 0}$
additional context（在论文的appendix中提到，是个不变的feature）
depth features（在论文的appendix中提到，是变化的）

产生三个输出：

新的hidden state $h_{i\to 0}$
修正值 (revision) $\mathbf{r}_{i\to 0}$ ，维度为 $H\times W\times 3$ ，3是指在2D坐标和逆深度的修正值
置信度（权重） $w_{i\to 0}$ ，维度是 $H\times W$ ，代表每个位置修正值的权重

论文中解释了深度修正值的必要性，是补偿输入传感器深度可能有噪声和相应点可能被遮挡的问题。

同时论文中也说明了在两个方向的计算过程中，GRU的权重是共享的。

Bidirectional Depth-Augmented PnP (BD-PnP)

这部分是以修正值 r 和置信度 w 来产生一个相机位姿的更新值 $\Delta G_0$ ，分为以下几个步骤：

用修正值更新correspondence fields
$\mathbf{x}’_{i\to 0}=\mathbf{x}_{i\to 0}+\mathbf{r}_{i\to 0}$
$\mathbf{x}’_{0\to i}=\mathbf{x}_{0\to i}+\mathbf{r}_{0\to i}$
定义目标函数

$\mathbf{E}\left(\mathbf{G}_{0}\right)= \sum_{i=1}^{N} \| \mathbf{x}_{i \rightarrow 0}^{\prime}-\Pi\left(\mathbf{G}_{0} \mathbf{G}_{i}^{-1} \Pi^{-1}\left(\mathbf{x}_{i}\right) \|_{\Sigma_{i \rightarrow 0}}^{2}+\right. \sum_{i=1}^{N} \| \mathbf{x}_{0 \rightarrow i}^{\prime}-\Pi\left(\mathbf{G}_{i} \mathbf{G}_{0}^{-1} \Pi^{-1}\left(\mathbf{x}_{0}\right) \|_{\Sigma_{0 \rightarrow i}}^{2}\right.$

最小化这个重投影坐标和修正后的correspondence的距离，距离函数 $||\cdot||_{\sum}$ 是马氏距离（Mahalanobis distance）， $\sum_{i\to 0}$ 是 $w_{i\to 0}$ 的对角线元素。

马氏距离衡量了一个点到一个分布的距离

这个目标函数的意义是得到一个相机坐标 $G_0$ ，使重投影的点能够匹配修正后的correspondence $\mathbf{x}'_{ij}$
Gauss-Netwon updates

每次迭代都会产生一个 $\delta \xi\in SE(3)$ ，然后用当前的位姿叠加这个修正值得到更新一次后的位姿 $G_0^{(t+1)}=\exp(\delta\xi)\cdot G_0^{(t)}$

在训练时迭代3次，在推理时迭代10次（这里我其实没懂到底是哪个步骤）

第二步最小化目标函数很像PnP，但是PnP只用了单个的2D-3D对应关系，而本文的方法使用了两个（正向和反向），除此以外，本文的方法包含了逆深度的重投影误差，这在PnP中是不具备的。

Inner and Outer Update Loops

给定一个渲染图片的集合，跑40轮update，然后用更新后的位姿估计重新渲染新的图片得到一个集合。
用得到的新集合重复上一个步骤

第一步就是inner loop，第二步就是outer loop。也就是用更好的位姿估计重新渲染7个视角的图片，然后再更新位姿估计，如此循环。

增加inner loop和outer loop的次数，就能达到用速度换准确度 (trade speed for accuracy) 的目的

RGB图片的处理

实验部分

Lies.

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读】Coupled Iterative Refinement for 6D Multi-Object Pose Estimation

Coupled Iterative Refinement for 6D Multi-Object Pose Estimation【CVPR2022】【6-DoF Pose Estimation】【论文阅读笔记】
复制链接

扫一扫