2020.10.13重读 PVN3D：A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation

最新推荐文章于 2025-05-10 01:50:10 发布

Leo-Ma

最新推荐文章于 2025-05-10 01:50:10 发布

阅读量1.2k

点赞数

分类专栏： SLAM 文章标签： PVN3D

本文链接：https://blog.csdn.net/wolfcsharp/article/details/109050254

版权

SLAM 专栏收录该内容

30 篇文章

订阅专栏

PVN3D是一种深度学习方法，用于6D对象位姿估计，它扩展了PVNet的思想，通过预测点到3D关键点的offset而非直接预测位姿，解决了旋转空间的非线性问题。网络包含特征提取、3D关键点检测和实例语义分割阶段，使用FPS选择关键点并进行投票聚类。实验表明，该方法在LineMOD和YCB数据集上优于现有方法，尤其是在处理遮挡和多目标情况下表现出色。损失函数包括关键点、语义和中心点损失。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PVN3D：A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation

1.背景信息
2.方法
3. Loss
4.实验结果
- - 4.1 LineMOD数据集
  - 4.2 YCB数据集
5. 读后感
6. 这篇文章的报告ppt

1.背景信息

1.输入RGBD图像
2.两阶段位姿估计方法：先找到model和scene中的点的对应关系，然后用LS或者PnP进行位姿解算。
作者说end to end的方法，直接回归与旋转有关的量，需要神经网络考虑旋转空间的非线性，这可能带来性能提升瓶颈。具体的旋转空间的非线性由PVNet这篇文章进行了解释，因此有必要一看。
3.与YOLOff、PVNet相似，PVN3D也采用预测offset而不是直接预测point的思想。这被证明是有利于优化的，因为offset会被限制在一个球内。

2.方法

在这里插入图片描述

思路和方法都是朴素的：
1. 特征提取阶段：先逐点提取RGB和depth的特征，然后融合。
2. 3D关键点检测和实例语义分割阶段：
2.1 3D关键点检测：网络Mk会逐点预测该seed点到选定的关键点的offset，其中(关键点选取采用了farthest point sampling (FPS))
2.2 实例语义分割：网络Ms会逐点预测该seed点所属的类别，网络Mc会逐点预测该seed点到所在目标中心点的offset。中心offsets和语义分割结果会进行投票和聚类，最终生成可靠的实例分割结果。
我个人理解：假如场景中存在两个相同的物体(比如两个手电钻)，通过语义分割网络Ms，这两个手电钻所包含的点会被标记为同一个类别。通过中心点偏移预测网络Mc，计算的偏移量们会使这两个手电钻分开，因为他们会明显不同的预测到两个中心点，然后通过聚类得到这两个手电钻中心点准确的位置。
2.3 将3D关键点检测和实例语义分割的结果通过投票和聚类，就可以得到预测的3D关键点在scene object中的位置
2.4 通过将预测的3D关键点与model中最初选定的关键点进行LS求解，即可解出位姿。
在这里插入图片描述