论文阅读 2017 —— Sensor Fusion for Fiducial Tags: Highly Robust Pose Estimation from Single Frame RGBD

最新推荐文章于 2022-01-21 09:47:20 发布

小玺玺

最新推荐文章于 2022-01-21 09:47:20 发布

阅读量374

点赞数 1

分类专栏：计算机视觉文章标签：算法计算机视觉

本文链接：https://blog.csdn.net/zhaoxi_li/article/details/115841669

版权

计算机视觉专栏收录该内容

24 篇文章 9 订阅

订阅专栏

这是一篇发表在IROS的一篇论文，用RGBD相机提升码标（Aruco）的位姿精度。尽管在增强现实和计算机视觉中可以应用多种码标，但是在机器人应用中，从这些码标中获得准确的位姿目前仍然是个挑战。难点很清晰：

这些码标仅用了RGB相机，而且机器人上的相机的分辨率通常受到限制。换句话说，码标在图像上成像越大或越清晰，精度才能越高。
位姿根据码标矩形框的4个点，通过PnP的方法获得，因此，位姿精度直接与点的精度相关。

该论文，基于RGBD相机来测量码标的位姿，通过RGB图像保留了码标的高精度，同时利用深度图使其对尺寸、光照和感知噪声具有更强的鲁棒性。这些改进使得码标适用于现实环境中要求高姿态精度的机器人任务。

1 介绍

码标在位姿估计中常见，码标具有极低的错误率，所以在多种机器人应用中广泛出现。利用码标矩形框的4个顶点，采用PnP的方法可以计算出位姿，但是由于场景噪声的存在，顶点的检测会存在误差，造成位姿的不稳定性，特别是姿态信息，具有很大的误差。

如下图所示，机器人将要执行一项操作任务并重新排列桌子上的对象。Apriltags被用来寻找场景中目标物体的姿态，但是机器人最终无法抓取长方体，因为它的姿态方向是错误的。

为什么旋转角会有如此大的误差？ 下图给出简单的说明，两个立方体，其中一个旋转120°，这时候对应的两个面形状相似（但是仍然有差异，只不过差异很小），这时候角点检测的误差可能覆盖这两种情况。简单来说，在某些姿态下，微小的角点误差可能会导致较大的姿态误差。

下图给出了不同噪声等级下的位姿估计误差结果。4个角点被叠加不同噪声等级。总价可得以下几点

噪声越大，误差越高。
存在某些旋转角具有较大误差。
距离越远，误差越大。

在这里插入图片描述

码标的设计仅针对于RGB图像，但是随着传感器的发展，RGBD相机，可以降低噪声的影响。RGB和深度传感器的工作最佳互补。RGB数据可以用来有效地检测特征，深度数据可以保留更好的结构信息。可以利用这一点来改进姿态估计过程，提高定位精度。该论文的主要创新点如下：

方法在噪声场景下鲁棒，适用于多个场景。
该方法适用于大多数码标检测场景
计算连恒效，能够达到实时性需求。

2 方法

2.1 深度平面拟合

确定了码标的4个点，就可以利用深度图信息，获得码标内部的点云，利用极大似然估计的方法拟合出一个平面。（文章的公式写的晦涩难懂，实际上实现起来很简单）。这里的平面方程表示为 $a_1x+a_2y+a_3z=d$ ， $a_1,a_2,a_3,d$ 是未知参数，之后约束 $a_1^2+a_2^2+a_3^2=1$ ，计算对应的误差最小的参数，即得到拟合出的平面方程参数 $(\boldsymbol{n},d)$ 。

2.2 初始位姿参数

根据检测出的靶标4个角点的位置，可以直接从深度图获得深度信息，这样，就可以得到4个空间点，将这些点投影到上一节拟合出的平面上，可以得到点集 $\boldsymbol{p}=[p_1,p_2,p_3,p_4]$ ，这些点是在相机坐标系下表示的。对应的，在码标坐标系下（码标中心点为原点），很容易设置出相应的四个点坐标 $\boldsymbol{q}=[q_1,q_2,q_3,q_4]$ 。