基于卷积神经网络的抓取实时检测

Real-Time Grasp Detection Using Convolutional Neural Networks

作者:Joseph Redmon1, Anelia Angelova2
会议:(ICRA-2015年)
论文链接

摘要

        我们提出了一种基于卷积神经网络的精确、实时的机器人抓取检测方法。我们的网络对可抓取的边界框执行单阶段回归,而不使用标准的滑动窗口或区域建议技术。该模型的性能比最先进的方法高14个百分点,在GPU上以每秒13帧的速度运行。我们的网络可以同时执行分类,以便在一个步骤中识别对象并找到一个好的抓取矩形。通过使用局部约束预测机制,对该模型进行了修改,以预测每个对象的多个抓取。局部约束模型的性能明显更好,尤其是在可以以多种方式抓取的对象上。

1 引言

        使用感官(或传感器,如果你是机器人)来理解你的环境是很困难的。视觉感知包括将像素值和光信息映射到universe模型上,从而推断出你周围的环境。一般的场景理解需要复杂的视觉任务,例如将场景分割为组成部分,识别这些部分是什么,以及消除视觉相似对象之间的歧义。由于这些复杂性,视觉感知是实际机器人系统中的一大瓶颈。通用机器人需要与物理世界中的物体进行交互和操纵的能力。人类看到新奇的物体,几乎是本能地立即知道如何抓住它们来捡起来。机器人抓取检测远远落后于人类的表现。我们关注的问题是,给定对象的RGB-D视图,如何找到良好的抓取。
        我们在Cornell Grasp Detection Dataset上进行评估,这是一个包含大量对象和真实抓取标记框的数据集。最近,关于这个数据集的研究工作在每帧13.5秒,精确度为75%[1][2]。这相当于机器人查看场景到抓取器移动位置之间有13.5秒的延迟。
        抓取检测最常用的方法是滑动窗口检测框架。滑动窗口方法使用分类器来确定图像的小块是否构成对该图像中对象的良好抓取。这种类型的系统需要将分类器应用于图像上的许多位置。得分高的小图块被认为是良好的潜在抓取。
        我们采取不同的方法;我们将单个网络应用于图像,并直接预测抓取坐标。我们的网络相对较大,但因为我们只对图像应用一次,所以性能得到了极大提升。我们的网络使用图像中的全局信息来通知其抓取预测,从而大大提高了预测的准确性,而不是只查看局部斑块。我们的网络达到88%的准确率,并以实时速度运行(每秒13帧)。这重新定义了RGB-D抓取检测的最新技术。

2 相关工作

        过去的工作使用三维模拟来找到良好的抓取[3][4][5][6][7]。这些方法功能强大,但依赖于完整的三维模型和有关对象的其他物理信息来找到适当的抓取。完整的对象模型通常是未知的。通用机器人可能需要抓取新物体,而无需先建立复杂的物体三维模型。
        机器人系统越来越多地利用RGB-D传感器和数据进行目标识别[8]、检测[9][10]和映射[11][12]等任务。像Kinect这样的RGB-D传感器很便宜,额外的深度信息对于与三维环境交互的机器人来说是非常宝贵的。
最近,关于抓取检测的工作集中在这个问题上,仅从RGB-D数据中查找抓取的方法[13]。这些技术依靠机器学习从数据中找到好的抓取特征。抓取的视觉模型可以很好地概括新对象,只需要对象的单一视图,而不需要完整的物理模型[14][2]。
        卷积网络是学习特征提取器和可视化模型的强大模型[15][16]。Lenz等人成功地将卷积网络用于抓取检测,作为滑动窗口检测管道中的分类器[1]。我们解决了与Lenz等人相同的问题,但使用了不同的网络架构和处理管道,能够以更快的速度实现更高的精度。

3 问题描述

五维抓取表示法:
g = { x , y , θ , h , w } g=\left \{ x,y,\theta,h,w \right \} g={x,y,θ,h,w}

4 基于神经网络的抓取检测

        卷积神经网络(CNN)目前在分类[15]和检测[16]等计算机视觉问题上的表现大大优于其他技术。CNN在滑动窗口方法中用作分类器时,在抓取检测方面已经表现良好[1]。
        我们希望避免在图像的小块上多次运行小型分类器的计算成本。我们利用大型卷积网络的广泛能力,对物体的完整图像进行全局抓取预测。
A. 架构
        在构建我们的抓取检测系统时,我们要从坚实的基础做起。我们从Krizhevsky等人为对象识别任务(AlexNet)[15]提出的广泛采用的卷积网络的一个版本中推导出我们的模型。
        我们的网络有五个卷积层,然后是三个完全连接的层。卷积层在不同的阶段穿插着规范化层和最大池层。架构的完整描述如图3所示。

B. 直接回归到抓取
        我们探索的最简单的模型是从原始RGB-D图像直接回归到掌握坐标。原始图像被提供给使用卷积层从图像中提取特征的模型。完全连接的层终止于一个输出层,该输出层具有与抓取坐标相对应的六个输出神经元。其中四个神经元对应于位置和高度。抓取角度是两倍旋转对称的,因此我们使用两个附加坐标进行参数化:两倍角度的正弦和余弦。
        该模型假设每个图像都包含一个可抓取的对象,并且只需要预测该对象的一次抓取,这是强先验的。这种强有力的假设在实验条件之外可能不成立。在实践中,该模型必须采用管道,首先将图像分割为仅包含单个对象的片段。实施这一假设的好处是,我们不需要使用滑动窗口类型的方法对许多小面片进行分类,而只需要查看单个图像并进行全局预测
        在训练过程中,我们的模型每次看到一个对象时都会选择一个随机的真实的抓取
框,并将其视为单个真实的抓取框。由于抓取经常更改,因此模型不会过度适合对象上的单个抓取。我们最小化了预测抓取的平方误差。最终的结果是,我们的模型符合对象可能抓取的平均值。
C. 回归 + 分类
        为了使用被抓取的物体,机器人必须首先识别物体。通过扩展我们的模型,我们证明了识别和抓取检测可以组合成一个单一的、高效的管道。
        我们在上一节中修改了我们的架构,在输出层中添加了与对象类别对应的额外神经元。我们保持体系结构的其余部分不变,因此我们的模型使用来自卷积层的公共特征进行识别和检测。
        该组合模型在一次过程中处理图像,并预测图像中对象的类别和对该对象的良好抓取。它的运行速度与直接回归模型一样快,因为体系结构基本保持不变。
D. 多抓取检测
        我们的第三个模型是第一个模型的推广,我们称之为多抓取。前面的模型假设每个图像只有一个正确的抓取,并尝试预测该抓取。多重抓取将图像分割为一个NxN网格,并假设每个网格单元最多有一个抓取。它预测每个细胞一次抓取,以及预测抓取在物体上可行的可能性。对于要预测抓取的单元,抓取的中心必须位于单元内。
        该模型的输出为N×N×7预测。第一个通道是区域包含正确抓取的可能性的热图。其他六个通道包含该区域的预测抓取坐标。在Cornell数据集的实验中,我们使用了7x7网格,使实际输出层为7x7x7或343个神经元。我们的第一个模型可以被视为该模型的一个特殊情况,网格大小为1x1,其中单个单元中存在抓取的概率隐式为1。
        训练多重掌握需要特别考虑。每次MultiGrass看到一个图像时,它会随机选取五个抓取作为基本事实。它构建了一个热图最多有五个单元格标记为1,其余单元格填充为0。它还计算那些抓取的单元格,并用抓取坐标填充地面真相的相应列。在培训期间,我们不会对整个7x7x7网格反向传播错误,因为许多列条目为空(如果该单元格中没有抓取)。相反,我们将误差反向传播到整个热图通道,以及包含基本真相抓取的特定单元。
        该模型在目标检测文献中有一些先兆,但在重要方面是新颖的。Szegedy等人使用深度神经网络预测图像上的二值对象遮罩,并使用预测的遮罩生成边界框[17]。我们预测的热图类似于此对象遮罩,但我们也预测完整的边界框,并且仅使用热图对预测进行加权。我们的系统不依赖于后处理或启发式来提取边界框,而是直接预测它们。
        Erhan等人预测多个边界框以及与这些边界框相关的置信度分数[18]。这种方法与我们自己的方法最为相似,我们还预测了多个边界框,并通过置信度评分对它们进行加权。关键的区别在于我们在预测中采用的结构,因此每个细胞只能对其图像区域进行局部预测。

5 实验和评估

        康奈尔抓取数据集[19]包含240个不同对象的885张图像,并标记为地面真实抓取。每个图像都有多个带标签的抓取,对应于抓取对象的不同可能方式。该数据集专为平行板夹持器设计。这些标签在方向、位置和规模方面都是全面的和多样的,但它们绝不是每一个可能掌握的全部。相反,它们应该是特别好的掌握的多样的例子。
A. 抓取检测
        之前的工作在评估康奈尔大学数据集上的掌握情况时使用了两种不同的指标。点度量查看从预测抓取的中心到每个地面真实抓取的中心的距离。如果其中任何距离小于某个阈值,则认为抓取成功。这个度量有许多问题,最重要的是它不考虑抓取角度或大小。此外,过去的工作没有披露他们使用的阈值,这使得无法将新结果与旧结果进行比较。由于这些原因,我们不以点度量进行评估。
        第二个度量在评估期间考虑完全抓取矩形。直角尺认为抓取是正确的,前提是:
1) θ < 30 ° \theta <30° θ<30°
2) J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A,B)= \frac{\mid A\cap B\mid }{\mid A\cup B\mid } J(AB)=ABAB
        矩形度量比点度量更好地区分好抓取和坏抓取。它与目标检测中使用的指标类似,尽管Jaccard索引的阈值较低(25%,而不是计算机视觉中更标准的50%),因为对地面真相的掌握并非详尽无遗。一个方向正确的矩形只与一个地面真实抓取重叠25%,通常仍然是一个很好的抓取。我们使用矩形度量执行所有实验。
        与之前的工作一样,我们对实验结果使用了五重交叉验证。我们对数据进行两种不同的拆分:
1) 按图像分割随机分割图像。
2) 按对象拆分随机拆分对象实例,将同一对象的所有图像放入同一交叉验证拆分中。
        图像分割测试模型能够将以前看到的对象概括到新位置的能力。Objectwise拆分更进一步,测试网络可以推广到新对象的程度。在实践中,这两种拆分技术的性能相当。这可能是由于数据集中不同对象之间的相似性(例如,有多个形状和颜色稍有不同的太阳镜)。
B. 物体分类
        我们将Cornell抓取数据集中的图像手动分类为16个不同的类别,包括“瓶子”、“鞋子”和“运动设备”等类别。数据集在类别之间的分布并不均匀,但每个类别在数据集中都有足够的示例,因此具有意义。数据集中表示最少的类别有20个图像,而表示最多的类别有156个。
        我们使用这些类标签来训练和测试我们的组合回归分类模型。在测试时,组合模型同时预测最佳抓取和对象类别。我们报告了上述相同交叉验证拆分的分类精度。
C. 预训练
        在对我们的网络进行抓取培训之前,我们对ImageNet分类任务进行了预培训[20]。我们在现有文献支持下的经验表明,预训练大型卷积神经网络可大大缩短训练时间,并有助于避免过度拟合[21][22]。
        Krizevsky等人为标准RGB图像设计了AlexNet。像Kinect这样的低成本立体视觉系统使得RGB-D数据在机器人系统中越来越普遍。要将AlexNet与RGB-D数据一起使用,我们只需将图像中的蓝色通道替换为深度信息。我们可以改为修改架构,以拥有另一个输入通道,但这样我们就无法对整个网络进行预训练。

当特定领域的数据有限(如标记的RGB-D抓取)时,预训练至关重要。通过预培训,网络可以找到有用的、可概括的过滤器,这些过滤器通常可以很好地转化为特定的应用程序[22]。即使在数据格式实际发生变化的情况下,我们仍然发现预训练过滤器的性能良好。这可能是因为良好的视觉过滤器(如定向边)也是深度空间中的良好过滤器。

D. 训练
        我们为我们测试的每一个模型进行类似的训练方案。对于每一次交叉验证,我们对每个模型进行25个阶段的训练。我们使用的学习率为0。0005,且权重衰减为0。在完全连接层之间的隐藏层中,我们使用概率为0的dropout。5作为正则化的附加形式。
        为了培训和测试我们的模型,我们使用在nVidia特斯拉K20 GPU上运行的cuda-CONVNET2软件包。GPU在计算能力方面提供了巨大的优势,我们的计时结果取决于使用GPU作为我们流水线的一部分。虽然GPU远非机器人平台的主流,但由于其在视觉任务中的实用性,GPU正变得越来越受欢迎。
E. 数据预处理
        在将数据传送到网络之前,我们对数据执行最少的预处理。如前所述,深度信息被替换到图像的蓝色通道中。深度信息标准化为介于0和255之间。某些像素由于在立体图像中被遮挡而缺少深度信息;我们用0代替这些像素值。然后,我们通过全局减去144来近似表示图像的中心。
        在为训练准备数据时,我们通过随机平移和旋转图像来执行广泛的数据扩充。我们将中心裁剪为320x320像素,在x和y方向上随机平移最多50像素,然后随机旋转。然后将此图像的大小调整为224x224,以适合我们架构的输入层。我们为每个原始图像生成3000个训练示例。对于测试图像,我们只需将中心320x320裁剪并调整大小,而无需平移或旋转。

6 结果

        总体而言,我们的模型在准确性和速度方面都优于当前最先进的模型。表一我们使用他们自我报告的矩形度量精度分数将我们的结果与之前的工作进行比较。
        直接回归模型为抓取检测的性能设置了新的基线。它在图像分割和对象分割方面都达到了85%左右的准确率,比之前的最佳分割高出10个百分点。在测试时,直接回归模型每批运行76毫秒,批大小为128个图像。虽然这相当于每秒处理1600多个图像,但在GRAP检测中,延迟比吞吐量更重要,因此我们将每个批次的数量报告为13 fps。这种加速的主要来源是从基于扫描窗口分类器的方法过渡到我们的单通道模型,以及我们使用GPU硬件来加速计算。在CPU上,每帧76毫秒肯定是可以实现的,因为它只需要GPU上处理完整批处理所需的浮点操作的1/128。
        直接回归模型在每次看到图像时使用不同的随机地面真值抓取进行训练。因此,它学习预测给定对象的平均地面真实抓取。预测平均抓取对某些类型的对象很有效,例如长而薄的对象,如标记或滚动销。该模型主要在平均抓取不能转化为对物体的有效抓取的情况下失败,例如,对于像飞盘这样的圆形物体。图5显示了直接回归模型预测的正确和错误把握的一些示例。
        组合回归分类模型表明,我们可以扩展我们的基本检测模型,在不牺牲检测精度的情况下同时执行分类;分类结果见表二。我们的模型能够正确预测它之前10次看到9次的物体的类别。当显示新对象时,我们的模型60%以上的时间预测正确的类别。相比之下,预测最常见类别的准确度为17。百分之七。
在这里插入图片描述
        即使添加了分类任务,组合模型仍能保持较高的检测精度。它在对象分割上具有相同的性能,实际上在图像分割上的性能稍好。该模型为康奈尔数据集上的抓取检测和目标分类建立了一个强大的基线。
        多重抓取模型的性能显著优于我们的基线直接回归模型。对于大多数对象,MultiGrass给出了与直接回归模型非常相似的结果。但是,多重抓取并不像直接回归模型那样存在平均抓取差的问题,因为直接回归模型可以减少大部分误差。图6显示了多抓取优于直接回归模型的示例,以及两个模型都失败的示例。
        MultiGrass的体系结构与直接回归模型非常相似,并以相同的实时速度运行。凭借88%的抓取检测精度和每秒13帧的处理率,MultiGrass重新定义了机器人抓取检测的最新技术。

7 讨论

        我们证明了机器人的感知既快速又精确。GPU为视觉系统,特别是基于卷积神经网络的系统提供了巨大的速度提升。CNNs继续主导视觉任务中的其他技术,使GPU成为任何高性能机器人系统中的重要组件。然而,GPU在模型训练期间是最重要的,并且针对吞吐量而不是延迟进行了优化。在测试时,CPU可以在远低于一秒钟的时间内运行我们的模型,使其在实时机器人应用中可行。
        模型考虑对于实现高性能非常重要。我们利用了对数据的强大约束,因此我们的模型只需要对图像进行一次单次扫描,就可以做出准确的抓取预测。
        与滑动窗口方法不同,我们的直接回归模型使用图像的全局信息进行预测。滑动窗口分类器只能看到很小的局部信息,因此它们无法有效地决定好的抓取,并且更容易被错误位置所欺骗。Lenz等人的报告说,他们的分类器具有很高的识别准确率(94%),但它仍然是这种假阳性悖论的受害者,因此其检测准确率要低得多。在这方面,全局模型比只看到局部信息的模型有很大的优势
        全局模型也有其缺点。值得注意的是,我们的直接回归模型经常试图在几个好的抓取框之间划分差异,最终以一个坏的抓取框结束。滑动窗口方法永远不会犯预测圆形物体(如飞盘)中心抓取的错误。
        我们的多抓取模型结合了全局模型和局部模型最强大的方面。它可以看到整个图像,并且可以有效地找到最佳抓取,并忽略误报。然而,由于每个单元只能进行局部预测,因此它避免了预测介于几个好抓取之间的坏抓取的陷阱。
        局部预测模型还能够预测每个图像的多个抓取。在这方面,我们无法对模型进行定量评估,因为当前没有数据集对图像中的多个抓取进行适当评估。在未来,我们希望在完整的检测任务中评估该模型,无论是图像中的多个抓取,还是在更标准的对象检测数据集上。
        在构建大型卷积神经网络时,需要进一步考虑预训练的重要性。如果不在ImageNet上进行预训练,我们的模型会很快过度适应训练数据,而不会学习良好掌握的有意义表示。有趣的是,预培训甚至可以跨域和跨功能类型进行。我们在深度信息上使用为图像的蓝色通道调整的功能,但仍然获得了良好的效果。重要的是,我们在深度通道上使用这些功能比在原始RGB图像上使用它们获得更好的结果。

8. 结论

        我们提出了一个快速,准确的系统预测机器人抓取物体的RGB-D图像。我们的模型改进了最先进的技术,运行速度比以前的方法快150倍以上。我们表明,抓取检测和目标分类可以结合起来,而不牺牲准确性或性能。我们的多抓取模型通过将全局信息与局部预测过程相结合,在康奈尔抓取数据集上获得了目前最好的性能。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值