抓取检测之 End-to-end Trainable Deep Neural Network for Robotic Grasp Detection and Semantic Segmentation-CSDN博客

前言:

最近研究没有进度，就想着找几篇质量高点的最近的关于抓取检测的论文，这篇文章很新，联合了抓取检测和语义分割，正好自己也想着将语义分割应用到自己的抓取网络中，奈何自己编码基本功不到位，只能先看看思路想法，本篇文章属于小白式的翻译+理解，希望不要被喷、、

引用：

Stefan Ainetter1 and Friedrich Fraundorfer1. End-to-end Trainable Deep Neural Network for Robotic Grasp Detection and Semantic Segmentation from RGB. arXiv:2107.05287v2 [cs.CV] 11 Feb 2022

摘要-

本文引入了一种新颖的、端到端可训练的基于cnn的架构，以提供高质量的抓取检测结果，适用于平行板抓取器和语义分割。在此基础上，我们提出了一种新的精细化模块，该模块利用先前计算的抓取检测和语义分割，进一步提高了抓取检测的准确性。我们提出的网络在两个流行的抓取数据集上提供了最先进的精确度，即Cornell和 Jacquard。作为额外贡献，我们为OCID数据集提供了一种新的数据集扩展，使其能够在高度挑战性的场景中评估抓取检测。使用这个数据集，我们表明语义分割还可以用于指定对象类的抓取候选对象，可以用于在场景中选择特定的对象。

I介绍-

在这项工作中，我们通过提出一个端到端可训练的多任务深度神经网络来解决平行板抓具的抓取检测以及语义分割。我们表明，在具有挑战性的场景中，单个网络能够为抓取检测和语义分割提供高质量的结果。此外，我们提出了一种新的改进模块，该模块结合了关于先前计算的抓取候选项和语义分割的信息，以进一步增加抓取检测的准确性。最后，我们提出了对OCID数据集的扩展，通过向每个对象添加手写注释的抓取候选对象和类别标签。在此 OCID上评估我们的模型，数据集扩展表明在具有多个对象的复杂场景中抓取检测和分割的高准确性。我们还展示了语义分割可以用于将抓取候选对象分配给对象，这使得拾取场景中的特定对象成为可能。图1 显示了我们新的 OCID数据集扩展的结果。

图一。对于包含多个可抓取对象的图像，抓取我们提出的模型的检测和分割结果。左上角显示场景中所有预测的抓取候选对象(蓝线表示手爪的平行板，红线表示开口宽度)，右上角显示预测的语义分割。左下角显示，将两者结合起来，可以为场景中的每个对象生成有效的抓取候选对象，这使得决定拾取哪个对象成为可能。右下角显示了由轴对齐的边界框表示的对象检测结果。与语义分割相比，边界框表示既不适合于确定哪个抓取候选者属于哪个对象，也不适合于确定对象之间的正确关系，因为框彼此高度重叠。

本文做出的贡献：

1) 一种端到端可训练的深度神经网络架构，用于联合抓取检测和密集的逐像素语义分割，为抓取检测提供最先进的性能。

2) 一个新颖的抓取优化模块，结合抓取检测和分割的结果，进一步提高整体抓取精度。

3) 机器人抓取的OCID数据集的扩展，通过将地面真实抓取候选对象作为定向边界框和类别信息添加到每个对象。