【GS-Pose】学习


论文题目

GS-Pose: Cascaded Framework for Generalizable
Segmentation-based 6D Object Pose Estimation

概况

  • 类别:论文
  • 标签:6-Dof、 Pose Estimation、novel、RGB
  • 发表刊物 / 会议 时间:2024/3

背景 (说明所做的问题、解决该问题的意义、简述现有方法存在的问题)

1.问题

  • novel物体姿态估计上现有工作大都依赖CAD,而获取CAD的成本是高昂的
  • onepose系列通过用一系列RGB图重建点云来规避CAD,但由于通过2D-3D对应的方式(需要关键点)来估计位姿,对无纹理物体效果很差,且需要2D边框来做crop
  • Gen6D为依赖RGB的novel估计工作提出框架:物体定位、初始姿态估计和姿态细化。然而,仅依赖于2D表示通常会导致次优性能

主要创新点(先一句话描述该文所做的事情,再分点讲创新点)

一句话
将3D Gaussian Splatting应用在位姿估计中,提出仅基于RGB的novel物体姿态估计框架

创新点

  • 新的多阶段框架用于物体定位和6D姿态估计。对于每个阶段,我们提出了从以前未见过的对象的一组姿态RGB图像中获得的优化表示
  • 提出了一个通用的共分割方法,用于从参考RGB图像中提取物体分割掩模。这些掩模可以进一步用于表示学习。
  • 3D Gaussian Splatting用于refine

方法

对于一个novel物体的估计分为两个部分:

  1. 对于参考RGB图(有pose)建立起数据库:seg表示Fobj、旋转感知的嵌入向量V、高斯对象表示G
  2. 对于目标RGB进行推理:定位、位姿初始化(基于检索)、pose refine(render-compare)

在这里插入图片描述

一、数据库建立(prompts)

分为三步进行
在这里插入图片描述

1.1 Semantic Representation Extraction.

在这里插入图片描述

这一步的目标是获得 object semantic tokens(Fobj),用于指导分割

  • 对参考图的pose label进行FPS采样得到关键帧
  • 关键帧经过DINOv2提取特征Ffps
  • co-seg的作用是将目标从背景中分离,这样就可以从Ffps中筛选出目标区域的特征

1.2 Rotation-Aware Representation Encoding.

在这里插入图片描述
这一步是为了对参考图的pose进行编码,用于推理时直接检索一个作为初始位姿

  • 每张参考图&token得到分割
  • RA-Encoer编码pose

1.3 3D Gaussian Object Reconstruction.

这一步是将参考图重建为3D Gauss表示,用于pose refine

二、位姿推理

也是三步进行:定位、pose init、pose refine
在这里插入图片描述

2.1 物体定位

目的是得到 crop(onepose系列必须有2d bbox)

2.2 Pose Estimator

本质是在数据库中找到一个最接近的pose作为初始化

  • 输入crop到obj-seg中得到mask和去背景图I,I经过编码得到V
  • 计算V与数据库中的v的相似分,分最高的参考rot为初始rot
  • 分最高的参考与seg出的mask计算出初始T

2.3 GS-Refiner.

设delta P为Tgs,不断迭代,最终pose为PinitTgs
迭代公式为
在这里插入图片描述

  • 圈表示对重建G进行位姿变换
  • T=【R,t】
  • R(x,p)指对X按照P进行渲染

实验

在这里插入图片描述

思考

  • 只看pose推理,是init&redfine,且基于render-compare,其实和fdp比较类似
  • 15
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值