前言:
最近研究没有进度,就想着找几篇质量高点的最近的关于抓取检测的论文,这篇文章很新,联合了抓取检测和语义分割,正好自己也想着将语义分割应用到自己的抓取网络中,奈何自己编码基本功不到位,只能先看看思路想法,本篇文章属于小白式的翻译+理解,希望不要被喷、、
引用:
Stefan Ainetter1 and Friedrich Fraundorfer1. End-to-end Trainable Deep Neural Network for Robotic Grasp Detection and Semantic Segmentation from RGB. arXiv:2107.05287v2 [cs.CV] 11 Feb 2022
摘要-
本文引入了一种新颖的、端到端可训练的基于cnn的架构,以提供高质量的抓取检测结果,适用于平行板抓取器和语义分割。在此基础上,我们提出了一种新的精细化模块,该模块利用先前计算的抓取检测和语义分割,进一步提高了抓取检测的准确性。我们提出的网络在两个流行的抓取数据集上提供了最先进的精确度,即Cornell和 Jacquard。作为额外贡献,我们为OCID数据集提供了一种新的数据集扩展,使其能够在高度挑战性的场景中评估抓取检测。使用这个数据集,我们表明语义分割还可以用于指定对象类的抓取候选对象,可以用于在场景中选择特定的对象。
I介绍-
在这项工作中,我们通过提出一个端到端可训练的多任务深度神经网络来解决平行板抓具的抓取检测以 及语义分割。我们表明,在具有挑战性的场景中,单个网络能够为抓取检测和语义分割提供高质量的结果。此外,我们提出了一种新的改进模块,该模块结合了关于先前计算的抓取候选项和语义分割的信息,以进一步增加抓取检测的准确性。最后,我们提出了对OCID数据集的扩展,通过向每个对象添加手写注释的抓取候选对象和类别标签。在此 OCID上评估我们的模型,数据集扩展表明在具有多个对象的复杂场景中抓取检测和分割的高准确性。我们还展示了语义分割可以用于将抓取候选对象分配给对象,这使得拾取场 景中的特定对象成为可能。图1 显示了我们新的 OCID数据集扩展的结果。
图一。对于包含多个可抓取对象的图像,抓取我们提出的模型 的检测和分割结果。左上角显示场景中所有预测的抓取候选对 象(蓝线表示手爪的平行板,红线表示开口宽度),右上角显示 预测的语义分割。左下角显示,将两者结合起来,可以为场景 中的每个对象生成有效的抓取候选对象,这使得决定拾取哪个 对象成为可能。右下角显示了由轴对齐的边界框表示的对象检 测结果。与语义分割相比,边界框表示既不适合于确定哪个抓 取候选者属于哪个对象,也不适合于确定对象之间的正确关系, 因为框彼此高度重叠。
本文做出的贡献:
1) 一种端到端可训练的深度神经网络架构,用于联合抓取检测和密集的逐像素语义分割,为抓 取检测提供最先进的性能。
2) 一个新颖的抓取优化模块,结合抓取检测和分 割的结果,进一步提高整体抓取精度。
3) 机器人抓取的OCID数据集的扩展,通过将地面真实抓取候选对象作为定向边界框和类别 信息添加到每个对象。
II 相关著作
--抓取检测发展
--语义分割发展
III 问题描述
抓取检测。我们使用机器人抓取的五维矩形表示。这种表示由位置和平行板夹爪在靠近物体之前的方向。抓取候选g被定义为 而x和y描述抓取候选的中心,w和h描述宽度和高度, θ描述旋转后的盒子表示的方向。
语义分割。语义分割是给图像中的每个像素分配一个类别标签的任务。注意,对于不可见对象的抓取检测,我们将语义类集合定义为可抓取的、不可抓取的。如果关于对象的附加类信息在数据集中可用, 则语义类的集合可以被相应地调整。
IV 方法提议
图二。我们提出的模型的架构。用于抓取检测和分割的两个分支共享主干网络作为特征提取器。两个输出(抓取候选和语义分割)都被用作抓取精细化头的输入,该抓取精细化头以增加的准确度预测更加精细化的抓取候选。
- 共享主干
作为特征提取器,我们使用稍微修改的ResNet[1]101,并在其上添加了特征金字塔网络(FPN)。ResNet-101架构的模块conv2、conv3、con4 和conv5与FPN相连。原始ResNet-101结构中的All Batch Normalization+ ReLU层都被同步Inplace Activated Batch Normalization (InPlaceABNSync)取 代 ,使 用 LeakyReLU作为激活。
- 抓取检测分支
grasp检测分支基于最先进的快速R-CNN对象检测器,由区域提议网络(RPN)和检测级组成。这一小节提供了关于我们如何为抓取检测修改这个对象检测器的细节。
1)区域提议网络:RPN使用主干的特征输出矩形区域提议网络作为输入。这些区域建议被定义为 ˆr = (ˆx, y, ˆ w, ˆ hˆ),其中(ˆx, yˆ)表示像素坐标中建议的中心,而 ( ˆw, hˆ)表示宽度和高度。注意,区域建议是轴对齐的,没有关于可能方向的信息。
2)抓取检测头: 抓取检测头预测抓取候选点,而一个候选点 g 的定义如式(1)所示,每个先前计算的区域建议ˆ r被用作抓取检测头的输入。然后,应用 ROIAlign提取直接对应区域建议的 14 × 14 空间分辨率的特征图 。 然后 , 对每个feature map应用核大小为 2 的平均池化,然后将它们馈送到两个全连接(fc)层,每个层有 1024 个神经元 。 在每个 fc层之后,在每个FC层之后,应用InPlaceABNSync归一化层和带有0.01的LeakyRELU激活。结果被转发到两个子网:
掌握方向的预测。第一个子网络由一个拥有 1024 个神经元的 fc 层组成,后面是 Nclasses+1 个输出单元,而Nclasses定义了方向类的数量。我们将抓取方向 θ 离散为 Nclasses = 18 个等长区间,每个区间用其均值表示。所有可能的朝向类的集合定义为 C ={(1,…, Nclasses)}和额外的类∅来评估提案的可能无效性。输出单元为 softmax 层提供 logit,该层表示所有可能的朝向类的概率分布。与方位类 c ∈ C 相关的概率被用作得分函数 s c。
边界框的预测。第二个子网络由一个拥有 1024 个神经元的 fc 层和 4Nclasses 输出单元组成。输出单元为每个输入建议 r 编码特定类别的校正因子。这些校正因子和评分函数 s c 给出的方向信息可以直接用于计算抓取候选 g。
C .细分分支
分割头以 FPN 的前四个尺度的输出作为输入。 FPN特征的每个尺度都被馈送到一个独 立的Mini-DeepLab 模块,这使得用相对较少的内存消耗捕获输入图像的全局结构成为可能。然后,每个Mini-DeepLab 模块的输出被上采样到输入图像大小的14。然后,将所有特征映射连接起来,并将其输入到与 Sclasses 输出通道的 1×1 卷积中,表示所有语义类的概率分布。
D. 抓取精细化头
抓取细化头(见图 3)以抓取检测分支先前预测的抓取候选对象和分割分支的语义概率图作为输入。 首先,我们通过从概率图中裁剪抓取候选区域来融合这两种信息。裁剪后的概率图和原始概率图堆叠在一起,用作多层感知器(MLP)的输入。注意,该方法使我们能够将抓取候选对象的几何信息与物体形状信息结合起来。MLP 是一个具有 5 个输出神经元的双层 fc 网络。在每个 fc 层之后,应用InPlaceABNSync归一化层和带有0.01的LeakyRELU激活。该输出表示每个输入抓取候选对象 g 的精细校正因子,然后利用这些修正因子计算精细抓取候选对象ˆg。
图 3 。抓取精细头结构。多层感知器(Multilayer Perceptron, MLP)将两个维度为(H × W)的语义概率图作为输入,而(H, W)定义了概率图的高度和宽度。MLP 的输出单元代表了精细校正因子 tgx、tgy、tgw,可直接用于计算精细抓取候选对象。注意,对于N 个抓取候选对象,此操作是同时执行的, 这会导致 MLP 的维度输入(N ×2×H ×W)。
V 训练损失
为了同时学习抓取检测、实例分割和候选抓取细化任务,我们定义复合损失函数为L 其中抓取检测损失L grasp,语义分割损失L sem,抓取细化损失L refine。所有部件都用特定的超参数λ加权。
VI 实验和结果
我们在Cornell和Jacquard这两个已知抓取数据集上评估了我们提出的方法的优点。 此外,我们评估我们的方法,我们的新颖的OCID扩展机器人抓取。我们将我们提出的架构与只使用RGB数据作为输入方式的最先进 的方法进行了比较,以确保公平的比较。由于 我们的抓取检测和分割分支是独立的,我们在 整个实验中评估了几个模型配置,使用以下术 语: Detection(ours)指的是只使用抓取检测分支的模型,Det Seg(ours)包括抓取检测和分割分支, Det Seg Refine(ours)包括完整的体系结构(见图2)。我们使用预先训练的ImageNet权值初始化骨干网,并在所有训练运行期间冻结前两个网络模块{conv1, conv2}的参数。所有的培训和评估运行都使用单个Nvidia GeForce RTX 2080 Ti显卡。除非另有说明,其他方法 的结果均取自相应的论文。
A.评价指标 对于抓取检测,我们使用流行的Jaccard指数作 为精度测量。判断一个抓取候选是正确的,
1)预测把握候选者 与地面真理把握候选者 的夹角差在30°。
2)两者的联合点(IoU)大于0.25,即
对于语义分割,我们报告了预测真实切分和基本真实切分之间的IOU。
表一,康奈尔数据集的抓取精度和计算速度的比较。所有结 果都是用图像的数据分割和 RGB 作为输入模式,使用5倍交叉验证产生的。
表二。比较 Jacquard 数据集的抓取精度、分割 IoU 和计算速度。所有结果均以图像数据分割和 RGB 作为输入模式生成。
表三。使用不同角度阈值和2 5的IoU阈值比较Jacquard数据 集的抓取精度(单位为[%])。
表四。使用不同的 IoU 阈值和 30 的角度阈值时,Jacquard 数据集的抓取精度(单位为[%])
表五,OCID抓取数据集的抓取准确率和语义分割结果。对于抓取精度,在对象类级别上计算Jaccard指数,该指数对应于为每一类找到可能的最佳抓取。
图 4。OCID 抓取的定性结果。从左到右的图像说明:1)原始输入图像;2)预测语义分割,而每种颜色代表一个特定的类别;3) 对于场景中的每一个类,最好的抓取(蓝色线 表示夹具的平行板,红色线表示开口宽度)。如果场景中有同一类的多个实例,例如第一行和第三行的橙色类,则只会显示置信度最高的一个抓取候选对象。每行引用一个单独的输入示例。
VII. 结论
在这项工作中,我们提出了一种新的CNN架构, 使用共享主干网络作为特征提取器,联合生成高精度的抓取检测和语义分割。我们表明,我们提出的抓取细化模块可以成功地用于提高先前预测的抓取候选对象的准确性,尤其是在抓取方向方面。使用我们提出的OCID抓取数据集扩展,我们 展示了复杂场景中抓取检测的高精度,并演示了如何使用语义分割将抓取候选对象分配给特定对象。未来,我们计划使用多模式输入数据扩展我们的方法,以充分利用RGB-D 抓取数据集提供的信息。
PS:
文章链接:
代码链接:
https:// github.com/stefan-ainetter/grasp_det_seg_cnn.