CVPR 2022最佳学生论文奖研究了什么?一作解读来了

来自|机器之心

作者|陈涵晟(同济大学研究生、阿里达摩院研究型实习生)

距离 CVPR 2022 各大奖项公布没多久,来自同济大学研究生、阿里达摩院研究型实习生陈涵晟为我们解读最佳学生论文奖。

本文解读我们获得 CVPR 2022 最佳学生论文奖的工作《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》。论文研究的问题是基于单张图像估计物体在 3D 空间中的位姿。现有方法中,基于 PnP 几何优化的位姿估计方法往往通过深度网络提取 2D-3D 关联点,然而因为位姿最优解在反向传播时存在不可导的问题,难以实现以位姿误差作为损失对网络进行稳定的端到端训练,此时 2D-3D 关联点依赖其他代理损失的监督,这对于位姿估计而言不是最佳的训练目标。为解决这一问题,我们从理论出发,提出了 EPro-PnP 模块,其输出位姿的概率密度分布而非单一的位姿最优解,从而将不可导的最优位姿替换为了可导的概率密度,实现了稳定的端到端训练。EPro-PnP 通用性强,适用于各类具体任务和数据,可以用于改进现有的基于 PnP 的位姿估计方法,也可以借助其灵活性训练全新的网络。从更一般的意义来说,EPro-PnP 本质是将常见的分类 softmax 带入到了连续域,理论上可以推广至训练一般的嵌套了优化层的模型。

6034a5efeb42200de0282647bde071c3.png

  • 论文链接:https://arxiv.org/abs/2203.13254

  • 代码链接:https://github.com/tjiiv-cprg/EPro-PnP

一、前言

2d7bf7d6016fd644575019250fee950c.png

我们研究的是 3D 视觉中的一个经典问题:基于单张 RGB 图像定位其中的 3D 物体。具体而言,给定一张含有 3D 物体投影的图像,我们的目标是确定物体坐标系到相机坐标系的刚体变换。这一刚体变换被称为物体的位姿,记作 y,其包含两部分:1)位置(position)分量,可用 3x1 的位移向量 t 表示,2)朝向(orientation)分量,可用 3x3 的旋转矩阵 R 表示。

cbca08441e104605068887fc75736b96.png

针对这一问题,现有方法可以分为显式和隐式两大类。显式方法也可称作直接位姿预测,即使用前馈神经网络(FFN)直接输出物体位姿的各个分量,通常是:1)预测物体的深度,2)找出物体中心点在图像上的 2D 投影位置,3)预测物体的朝向(朝向的具体处理方法可能比较复杂)。利用标有物体真实位姿的图像数据,可以设计损失函数直接监督位姿预测结果,轻松地实现网络的端到端训练。然而,这样的网络缺乏可解释性,在规模较小的数据集上易于过拟合。在 3D 目标检测任务中,显式方法占据主流,尤其是对于规模较大的数据集(例如 nuScenes)。

e4140b67772708228704e8b52336ec96.png

隐式方法则是基于几何优化的位姿估计方法,最典型的代表是基于 PnP 的位姿估计方法。这类方法中,首先需要在图像坐标系中找出 N 个 2D 点(第 i 点 2D 坐标记作884ddcdcb6e7f23e947816f7f0c708db.png),同时在物体坐标系中找出与之相关联的 N 个 3D 点(第 i 点 3D 坐标记作56b47a969b0f127eba398c936ed4db64.png),有时还需要获取各对点的关联权重(第 i 对点的关联权重记作4eb8054333758ce1001da5c4a7ddf306.png)。根据透视投影约束,这 N 对 2D-3D 加权关联点隐式地定义了物体的最优位姿。具体而言,我们可以找出使重投影误差最小的物体位姿97e2e3549c2f9405cf05bf321af9d7a7.png

2617f328a0b8642cd5fb1627e61353c7.png

其中f53a3bd1b571f48ab5d7e6f41439959e.png,表示加权重投影误差,是位姿的7c8171008b42ba5032559a010a3c7925.png函数。3e3324801a9cc3595ff2b4085779d25e.png表示含有内参的相机投影函数,23057885b6f82de660a4e49dc15d9f57.png表示元素乘积。PnP 方法常见于物体几何形状已知的 6 自由度位姿估计任务中

7e6c4fa9af928635e18de4036f46d928.png

基于 PnP 的方法也需要前馈网络去预测 2D-3D 关联点集a61c44fecbb83b91e29d84040d6e5017.png。相比于直接位姿预测,这一深度学习结合传统几何视觉算法的模型有非常好的可解释性,其泛化性能较为稳定,但在以往的工作中模型的训练方法存在缺陷。很多方法通过构建代理损失函数,去监督 X 这一中间结果,这对于位姿而言不是最优的目标。例如,已知物体形状的前提下,可以预先选取出物体的 3D 关键点,然后训练网络去找出对应的 2D 投影点位置。这也意味着代理损失只能学习 X 中的部分变量,因此不够灵活。如果我们不知道训练集中物体的形状,需要从零开始学习 X 中的全部内容该怎么办?

显示和隐式方法的优势互补,如果能够通过监督 PnP 输出的位姿结果,端到端地训练网络去学习关联点集 X ,则可以将二者优势结合。为实现这一目标,一些近期研究利用隐函数求导实现了 PnP 层的反向传播。然而,PnP 中的 argmin 函数在某些点是不连续不可导的,使得反向传播并不稳定,直接训练难以收敛。

二、EPro-PnP 方法介绍

1、EPro-PnP 模块

f9c432995bcd0e6192c30f8e3b594e4d.png

为了实现稳定的端到端训练,我们提出了端到端概率 PnP(end-to-end probabilistic PnP),即 EPro-PnP。其基本思想是将隐式位姿视作一个概率分布,则其概率密度2d9058ee0d44110d5e22d82842380ad4.png对于 X 是可导的。首先基于重投影误差定义位姿的似然函数:

a28520ba2b3d54f9b06f4d27e059e932.png

若使用无信息先验,则位姿的后验概率密度为似然函数的归一化结果:

8bdcb896b0ded3197e3fd32efa1978b0.png

可以注意到,以上公式与常用的分类 softmax 公式b9b025ef35eae6f1cb851282fc2518c6.png分接近,其实 EPro-PnP 的本质就是将softmax从离散阈搬到了连续阈,把求和7402cde0cedd6627ce32183bbe0c3e44.png换成了积分0c73b8400d441a7c65ffdcff11906281.png

2、KL 散度损失

在训练模型的过程中,已知物体真实位姿02003db2d92d0c8b7a2b005165687008.png,则可以定义目标位姿分布c4b00ead7ff31e01b8149fa3d0f7cf78.png。此时可以计算 KL 散度8cbf88d4389015f9dbedc35564049963.png作为训练网络所用的损失函数(因061ccd6116b91b137138e1d6a0990ac2.png固定,也可以理解为交叉熵损失函数)。在目标a45c6048be3bb366cb4352e0c976e3ec.png趋近于 Dirac 函数的情况下,基于 KL 散度的损失函数可以简化为以下形式:

78982879857d88652ce5a65b0fe173fd.png

如对其求导则有:

b75e7b9aff6e0bba8eab853e67299b2e.png

可见,该损失函数由两项构成,第一项(记作963993b7bb4997e3043165bfd180c37f.png)试图降低位姿真值053df8ccf5716010f29fac97e1ed1eda.png的重投影误差,第二项(记作14afc6d03513783465e1343c042efd79.png)试图增大预测位姿b87a9909bf0f5d8d6c4e72c65f479d93.png各处的重投影误差。二者方向相反,效果如下图(左)所示。作为类比,右边就是我们在训练分类网络时常用的分类交叉熵损失。

ef6fef29d2f77377ce7d3f28480e1b50.png

3、蒙特卡洛位姿损失

需要注意到,KL 损失中的第二项84eb377c69d2509bb42bcfcba504d90c.png中含有积分,这一积分没有解析解,因此必须通过数值方法进行近似。综合考虑通用性,精确度和计算效率,我们采用蒙特卡洛方法,通过采样来模拟位姿分布。

699bf594150b9fef57db793e88ee3089.png

具体而言,我们采用了一种重要性采样算法——Adaptive Multiple Importance Sampling(AMIS),计算出K个带有权重778d8cf43674a4fc1f99958e010d5193.png的位姿样本f7c82370f3c589fce5241d30b759c571.png,我们将这一过程称作蒙特卡洛 PnP:

dbfa04d00c6a4becca54efdf0f653a3a.png

据此,第二项425359a64e3b1b0dc0809c4d36432fe8.png可以近似为关于权重8383f18b9a0b040c4b7a9d76a5effcc9.png的函数,且1a4b98b0b460a8540e3a2a0b4f7ab745.png可以反向传播:

6f4f00dfbe62da5451aa53d99ab4e63e.png

位姿采样的可视化效果如下图所示:

3a5b8835f5b8dd900dda63fa2c38088d.png

4、针对 PnP 求解器的导数正则化

尽管蒙特卡洛 PnP 损失可以用于训练网络得到高质量的位姿分布,但在推理阶段,还是需要通过 PnP 优化求解器来得到最优位姿解7666dbd83d014edb8244b06cbf333eee.png。常用的高斯 - 牛顿及其衍生算法通过迭代优化求解8b2838e7e7d2739d402f0604b2fa0f37.png,其迭代增量是由代价函数d66887cd581d96c8c292a727aeac8177.png的一阶和二阶导数决定的。为使 PnP 的解6f53bbbd1ccc6e92f9f56b9974da1d2a.png更接近真值72bfd0f6f4fafc871f3bc4f26f49cb86.png,可以对代价函数的导数进行正则化。设计正则化损失函数如下:

efef9d68afcbf347a64f19153e7e2ebf.png

其中,16bfbb9f372139286c7b025404a20d18.png为高斯 - 牛顿迭代增量,与代价函数的一阶和二阶导数有关,且可以反向传播,82e0f361dd9ba59ed8d5b831194e0376.png表示距离度量,对于位置使用 smooth L1,对于朝向使用 cosine similarity。在a065f6493becc4eb1aacea792bca73d9.png不一致时,该损失函数促使迭代增量e14aa428d667fe34a0b862847923af61.png指向实际真值。

三、基于 EPro-PnP 的位姿估计网络

我们在 6 自由度位姿估计和 3D 目标检测两个子任务上分别使用了不同的网络。其中,对于 6 自由度位姿估计,在 ICCV 2019 的 CDPN 网络的基础上稍加修改并用 EPro-PnP 训练,用来进行 ablation studies;对于 3D 目标检测,在 ICCVW 2021 的 FCOS3D 基础上设计了全新的变形关联(deformable correspondence)检测头,以证明 EPro-PnP 可以训练网络在没有物体形状知识的情况下直接学出所有 2D-3D 点和关联权重,从而展现 EPro-PnP 在应用方面的灵活性。

1、用于 6 自由度位姿估计的稠密关联网络

7a43c282f4511b75ba879fffbee94e07.png

网络结构如上图所示,只是在原版 CDPN 的基础上修改了输出层。原版 CDPN 使用已经检测到的物体 2D 框裁剪出区域图像,输入到 ResNet34 backbone 中。原版 CDPN 将位置与朝向解耦为两个分支,位置分支使用直接预测的显式方法,而朝向分支使用稠密关联和 PnP 的隐式方法。为了研究 EPro-PnP,改动后的网络只保留了稠密关联分支,其输出为 3 通道的 3D 坐标图,以及 2 通道关联权重,其中关联权重经过了 spatial softmax 和 global weight scaling。增加 spatial softmax 目的是对权重7e0a03c9340c27ba5432fc91307154ff.png进行归一化,使其具有类似 attention map 的性质,可以关注相对重要的区域,实验证明权重归一化也是稳定收敛的关键。Global weight scaling 反映了位姿分布38438bf6b27e71a6d4364c6bf5d38d12.png的集中程度。该网络仅需 EPro-PnP 的蒙特卡洛位姿损失就可以训练,此外可以增加导数正则化,以及在物体形状已知的情况下增加额外的 3D 坐标回归损失。

2、用于 3D 目标检测的变形关联网络

abd395cf20ab7d6652a4fbff88a6e2e8.png

网络结构如上图所示。总体而言是基于 FCOS3D 检测器,参考 deformable DETR 设计的网络结构。在 FCOS3D 的基础上,保留其 centerness 和 classification 层,而将其原有的位姿预测层替换为 object embedding 和 reference point 层,用于生成 object query。参考 deformable DETR,我们通过预测相对于 reference point 的偏移量得到 2D 采样位置(也就得到了dca287a639efe83f5c6fb4aeadf67f5c.png)。采样后的 feature 经由 attention 操作聚合为 object feature,用于预测物体级别的结果(3D score,weight scale,3D box size 等)。此外,采样后各点的 feature 在加入 object embedding 并经由 self attention 处理后输出各点所对应的的 3D 坐标bff93040ab3e65d6e776694445ea8787.png和关联权重c7d264c199706014c9a1cc887aa5de2d.png。所预测的7cc8066bd5d6a017419c3e8857ccf89e.png全部可由 EPro-PnP 的蒙特卡洛位姿损失训练得到,不需要额外正则化就可以收敛并有较高的精度。在此基础上,可以增加导数正则化损失和辅助损失进一步提升精度。

四、实验结果

1、6 自由度位姿估计任务

4a99d5e30c7ef890d2ee5ccd01cdbe4f.png

使用 LineMOD 数据集实验,并严格与 CDPN baseline 进行比对,主要结果如上。可见,增加 EPro-PnP 损失进行端到端训练,精度显著提升(+12.70)。继续增加导数正则化损失,精度进一步提升。在此基础上,使用原版 CDPN 的训练结果初始化并增加 epoch(保持总 epoch 数与原版 CDPN 的完整三阶段训练一致)可以使精度进一步提升,其中预训练 CDPN 的优势部分来源于 CDPN 训练时有额外的 mask 监督。

a81796ae5efe92449e1b18053c4768e3.png

上图是 EPro-PnP 与各种领先方法的比较。由较落后的 CDPN 改进而来的 EPro-PnP 在精度上接近 SOTA,并且 EPro-PnP 的架构简洁,完全基于 PnP 进行位姿估计,不需要额外进行显式深度估计或位姿精修,因此在效率上也有优势。

2、3D 目标检测任务

c647d27695b3c924ba22616ac70dba35.png

使用 nuScenes 数据集实验,与其他方法对比结果如上图所示。EPro-PnP 不仅相对 FCOS3D 有了明显提升,还超越了当时的 SOTA、FCOS3D 的另一个改进版本 PGD。更重要的是,EPro-PnP 目前是唯一在 nuScenes 数据集上使用几何优化方法估计位姿的。因 nuScenes 数据集规模较大,端到端训练的直接位姿估计网络已具有较好性能,而我们的结果说明了端到端地训练基于几何优化的模型能做到在大数据集上取得更加优异的性能。

3、可视化分析

5840bb83f44c803ccb15e88ecbf521e7.png

上图显示了用 EPro-PnP 训练的稠密关联网络的预测结果。其中,关联权重图91d2a1bc1a0ec9c298026fe67ecab04c.png对图像中的重要区域进行了高光,类似于 attention 机制。由损失函数分析可知,高光区域对应的是重投影不确定性较低以及对位姿变动较为敏感的区域。

38c116603066f5264bd5f8dc7e0e986c.png

3D 目标检测的结果如上图所示。其中左上视图显示了变形关联网络采样出的 2D 点位置,红色表示7f7df045451502a0b3fb45238a1b0eb0.png水平 X 分量较高的带你,绿色表示b02a05363401caee6c831d86fc8ccd2f.png垂直 Y 分量较高的点。绿色点一般位于物体上下两端,其主要作用是通过物体高度来推算物体的距离,这一特性并非人为指定,完全是自由训练的结果。右图显示了俯视图上的检测结果,其中蓝色云图表示物体中心点位置的分布密度,反映了物体定位的不确定性。一般远处的物体定位不确定性大于近处的物体。

906a1354ee36a8c41205c598e0c40e8c.png

EPro-PnP 的另一重要优势在于,能够通过预测复杂的多峰分布来表示朝向的模糊性。如上图所示,Barrier 由于物体本身旋转对称,朝向经常出现相差 180° 的两个峰值;Cone 本身没有特定的朝向,因此预测结果在各个方向均有分布;Pedestrian 虽不完全旋转对称,但因图像不清晰,不易判断正面和背面,有时也会出现两个峰值。这一概率特性使得 EPro-PnP 对于对称物体不需要在损失函数上做任何特殊处理。

五、总结

EPro-PnP 将原本不可导的最优位姿转变为可导的位姿概率密度,使得基于 PnP 几何优化的位姿估计网络可实现稳定且灵活的端到端训练。EPro-PnP 可应用于一般的 3D 物体位姿估计问题,即使在未知 3D 物体几何形状的情况下,也可以通过端到端训练学习得到物体的 2D-3D 关联点。因此,EPro-PnP 拓宽了网络设计的可能性,例如我们提出的变形关联网络,这在以往是不可能训练的。此外,EPro-PnP 也可以直接被用于改进现有的基于 PnP 的位姿估计方法,通过端到端训练释放现有网络的潜力,提升位姿估计精度。从更一般的意义来说,EPro-PnP 本质是将常见的分类 softmax 带入到了连续域,不仅可用于其他基于几何优化的 3D 视觉问题,理论上还可以推广至训练一般的嵌套了优化层的模型。

推荐阅读

欢迎大家加入DLer-CVPR2022技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

80a96cb29d0b3c15d8445147cd55dba6.jpeg

👆 长按识别,邀请您进群!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值