【GS-Pose】学习

最新推荐文章于 2024-07-25 22:24:14 发布

momo_vv

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量949

点赞数 15

文章标签：学习

本文链接：https://blog.csdn.net/weixin_44695308/article/details/139087419

版权

文章目录

论文题目
概况
背景 (说明所做的问题、解决该问题的意义、简述现有方法存在的问题)
- 1.问题
主要创新点（先一句话描述该文所做的事情，再分点讲创新点）
方法
实验
思考

论文题目

GS-Pose: Cascaded Framework for Generalizable
Segmentation-based 6D Object Pose Estimation

概况

类别：论文
标签：6-Dof、 Pose Estimation、novel、RGB
发表刊物 / 会议时间：2024/3

背景 (说明所做的问题、解决该问题的意义、简述现有方法存在的问题)

1.问题

novel物体姿态估计上现有工作大都依赖CAD，而获取CAD的成本是高昂的
onepose系列通过用一系列RGB图重建点云来规避CAD，但由于通过2D-3D对应的方式（需要关键点）来估计位姿，对无纹理物体效果很差，且需要2D边框来做crop
Gen6D为依赖RGB的novel估计工作提出框架：物体定位、初始姿态估计和姿态细化。然而，仅依赖于2D表示通常会导致次优性能

主要创新点（先一句话描述该文所做的事情，再分点讲创新点）

一句话：
将3D Gaussian Splatting应用在位姿估计中，提出仅基于RGB的novel物体姿态估计框架

创新点

新的多阶段框架用于物体定位和6D姿态估计。对于每个阶段，我们提出了从以前未见过的对象的一组姿态RGB图像中获得的优化表示。
提出了一个通用的共分割方法，用于从参考RGB图像中提取物体分割掩模。这些掩模可以进一步用于表示学习。
3D Gaussian Splatting用于refine

方法

对于一个novel物体的估计分为两个部分：

对于参考RGB图（有pose）建立起数据库：seg表示F^obj、旋转感知的嵌入向量V、高斯对象表示G
对于目标RGB进行推理：定位、位姿初始化（基于检索）、pose refine（render-compare）

在这里插入图片描述

一、数据库建立（prompts）

分为三步进行
在这里插入图片描述

1.1 Semantic Representation Extraction.

在这里插入图片描述

这一步的目标是获得 object semantic tokens（F^obj），用于指导分割

对参考图的pose label进行FPS采样得到关键帧
关键帧经过DINOv2提取特征F^fps
co-seg的作用是将目标从背景中分离，这样就可以从F^fps中筛选出目标区域的特征

1.2 Rotation-Aware Representation Encoding.

在这里插入图片描述
这一步是为了对参考图的pose进行编码，用于推理时直接检索一个作为初始位姿

每张参考图&token得到分割
RA-Encoer编码pose

1.3 3D Gaussian Object Reconstruction.

这一步是将参考图重建为3D Gauss表示,用于pose refine

二、位姿推理

也是三步进行：定位、pose init、pose refine
在这里插入图片描述

2.1 物体定位

目的是得到 crop（onepose系列必须有2d bbox）

2.2 Pose Estimator

本质是在数据库中找到一个最接近的pose作为初始化

输入crop到obj-seg中得到mask和去背景图I，I经过编码得到V
计算V与数据库中的v的相似分，分最高的参考rot为初始rot
分最高的参考与seg出的mask计算出初始T

2.3 GS-Refiner.

设delta P为T_gs，不断迭代，最终pose为P_initT_gs
迭代公式为
在这里插入图片描述

圈表示对重建G进行位姿变换
T=【R，t】
R(x,p)指对X按照P进行渲染

实验

在这里插入图片描述

思考

只看pose推理，是init&redfine，且基于render-compare，其实和fdp比较类似

momo_vv

关注

15
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
【GS-Pose】学习

将3D Gaussian Splatting应用在位姿估计中，提出仅基于RGB的novel物体姿态估计框架。这一步是将参考图重建为3D Gauss表示,用于pose refine。也是三步进行：定位、pose init、pose refine。（onepose系列必须有2d bbox）设delta P为T。
复制链接

扫一扫