GraspNet-1Billion

最新推荐文章于 2025-04-15 23:17:32 发布

啥也不是的py人

最新推荐文章于 2025-04-15 23:17:32 发布

阅读量2.2k

点赞数 2

分类专栏： # PointCloud 文章标签：深度学习人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50920579/article/details/128839974

版权

PointCloud 专栏收录该内容

8 篇文章

订阅专栏

本文提出了一种统一的抓取姿态检测系统，包括大规模数据集的构建和端到端网络设计。数据集通过真实世界传感器收集，使用解析计算标注抓取姿态，减少了手动注释的工作量。提出的网络不仅学习逼近方向和操作参数，还引入了抓取亲和场来增强抓取的稳健性。实验表明，这种方法能有效提升抓取的成功率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

2.1 data collection：

2.2 data annotation

3.1 Training and Inference

.1 intro

contribution:

一个具有统一评价体系的大规模抓取姿态检测数据集
评估系统通过解析计算直接报告抓取是否成功，它可以评估任何一种抓取姿势，而不需要穷尽地标注ground truth
一种end2end的抓取姿态预测网络，在该网络中，以一种确定的方式来学习逼近方向和操作参数。
为了提高抓取的稳健性，设计了一种新型抓取亲和场。

Intro：

难点1.抓取姿态有不同的表示，包括矩形和6D姿态表示

难点2：很难获得大规模高质量的训练数据

创新：

1.构建数据集的方法。我们用真实世界的传感器收集数据，并通过解析计算为每个单独的物体标注抓取姿势。手动注释对象6D姿势以将抓取姿势从对象坐标投影到场景坐标。这种方法极大地减少了标注抓握姿势的劳动。我们的数据集既有密集的注释，又与真实世界视觉上一致。

2.为了更好地进行几何推理和上下文编码，我们提出了一种端到端的3D抓取姿态检测网络。该网络不是直接预测抓取姿态矩阵，而是寻求一种更稳健的学习方式，在统一目标下显式学习逼近方向和操作参数(如面内旋转、抓取宽度)。它采用了一种新的抓取姿势表示，而不是直接回归

3.此外，为了提高抓取姿态的抗扰性，提出了抓取亲和场的新表示法，使网络具有较强的抗扰动能力。

下图为论文解决思路

related work:

1.基于抓取预测算法的深度学习

->根据图像输入检测可抓取的矩形（基于平面）

->基于6D位姿估计，并将预先定义的抓握姿势投射到场景中（需要预先知道抓取物体的形状）

->在部分观察到的点云上抓取候选对象，并使用3D CNN输出每个候选对象的分类分数。

2.抓取数据集

-> 矩形标注（人工标注）的抓取数据集（cornell）

-> 用机器人执行抓取，获得抓取数据集（google那篇工作）

-> 仿真标注（dex-net），但是问题是传感器差距会导致问题

-> 像素级标注affordance（GraspSeg）

3.基于点云的深度学习

-> 原始点云学习（PointNet）

-> 分割分类（Point系列）

->抓取位置预测（S4G）

.2 Dataset

该数据集包含88个具有高质量3D网格模型的日常对象。这些图像是从190个杂乱的场景中收集的，每个场景都贡献了两个不同摄像头拍摄的512张RGB-D图像，总共带来了97,280张图像。

对于每幅图像，通过力闭合的解析计算来密集地标注6-DOF抓取姿势[29]。每个场景的抓握姿势从300万到900万不等，我们的数据集总共包含超过11亿个抓握姿势。

此外，还提供了精确的对象6D姿势标注、基于矩形的抓取姿势、对象蒙版和包围盒。每一帧还与一个相机姿势相关联，因此可以很容易地融合多个视点云。

2.1 data collection：

场景设置：对于每个场景，我们从整个对象集中随机挑选大约10个对象，并以杂乱的方式放置它们。

标定方式：相机在机械臂上。

2.2 data annotation

6D Pose Annotation：

每个场景的第一帧注释6D姿势。6d姿态将传播到剩余帧。

grasp pose annotation：

力闭合

2.3 evaluation

数据集拆分：共190个场景，100个用于训练集，90个用于测试集。测试集中30个用于见过的物体，30个用于没见过但相似的物体，30个用于新物体。

对于每个预测的抓取姿势ˆPI，我们通过检查抓取器内部的点云将其与目标对象相关联。然后，类似于抓取标注的生成过程，在给定不同的µ的情况下，我们可以通过力闭合度量得到每个抓取姿势的二进制标签。

.3 backbone

end2end网络架构;

点云输入然后编码提取M个点然后解码输出这M个点

采用PointNet++，N×3大小的原始点云作为输入，输出一组新的具有C个特征的点（3+c）

输入M个（3+c）通过Approachnet，输出M个(2+v),2表示是否可掌握的二进制类，V表示预定义接近向量的数量。

组合M个（3+c）和M个（2+v）--生成圆柱形的抓取区域，每个区域里ni个抓取点（ni*（3+c））

把ni*（3+c）[圆柱区域]输入Operation Network和Tolerance Network

Operation Network 把ni*（3+c）分成K个区域每个区域有R个抓取位姿输出 K个R*3

Tolerance Network 筛选出好的抓取位姿输出每个K最好的R

最后结合 Operation Network和Tolerance Network的输出进行过滤，输出K个Grasps

Loss Function 候选点可以被抓取条件：

1.点是否在物体上

2.在半径5mm的范围内至少具有一个可抓取ground-truth

3.1 Training and Inference

通过根据抓取分数将抓取姿势划分为10个类来优化抓取姿势

最后inference的时候，输入点输出可抓取位姿

3.2 Experiment

References：

论文阅读|GraspNet-1Billion - 知乎

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。