vpg论文翻译

推荐如果有论文的话用copytranslator翻译!

基于自监督深度强化学习的推抓协同学习

 摘要——熟练的机器人操作得益于非可抓握(如推)和可抓握(如抓)动作之间的复杂协同作用:推可以帮助重新排列杂乱的物体,为手臂和手指腾出空间;同样,抓握可以帮助移动物体,使推动动作更加精确和无碰撞。在这项工作中,我们证明了通过无模型深度强化学习从零开始发现和学习这些协同作用是可能的。我们的方法包括训练两个完全卷积的网络,它们从视觉观察映射到动作:一个推断推动对末端执行器方向和位置的密集像素采样的效用,而另一个为抓取做同样的事情。两个网络都是在一个Q学习框架中联合训练的,并且完全是通过试错进行自我监督的,其中奖励是由成功的抓取提供的。这样,我们的政策学习推动未来掌握的动作,同时学习利用过去推动的掌握。在模拟场景和真实场景的挑选实验中,我们发现我们的系统在具有挑战性的杂乱场景中快速学习复杂行为,并且仅经过几个小时的训练就获得了比基线方案更好的抓取成功率和挑选效率。我们进一步证明,我们的方法能够推广到新的对象。定性结果(视频)、代码、预训练模型和模拟环境可在http://vpg.cs.princeton.edu获得

介绍

 熟练的操作得益于非抓握(如推)和抓握(如抓)动作之间的协同作用:推可以帮助重新排列杂乱的物体,为手臂和手指腾出空间(见图1);同样,抓握可以帮助移动物体,使推动动作更加精确和无碰撞。
尽管已经有大量的研究致力于推动和把握计划,但它们主要是孤立研究的。将推动和掌握策略结合起来进行顺序操作是一个相对未探索的问题。传统上,推是为了精确控制物体的姿态而研究的。然而,在推和抓之间的许多协同作用中,推扮演着一个松散定义的角色,例如分离两个物体,在特定区域腾出空间,或者分解一群物体。对于基于模型的[1],[2],[3]或数据驱动的[4],[5],[6]方法,这些目标很难定义或奖励。
最近许多学习抓取策略的成功方法,最大化了从经验[7],[8]或抓取稳定性度量[9]中获得的启示度量,然而,如何规划结合抓握和推动的动作序列仍然不清楚,每个动作都是孤立学习的。虽然通过利用特定领域的知识[11]已经成功地开发了用于监督推送-抓取策略的硬编码试探法,但是它们限制了推送和抓取之间可以执行的协同行为的类型。


(密集块的示例配置反映了现实场景中常见的杂乱情况(例如,书籍、盒子等的堆叠)。),这对于自发操纵政策来说仍然具有挑战性。我们的无模型系统能够计划推动运动,可以将这些物体相互隔离,使它们更容易掌握;提高采摘的整体稳定性和效率。)

在这项工作中,我们建议通过无模型深度强化学习(特别是Qlearning)从经验中发现和学习推动和抓住之间的协同作用。我们系统的关键方面是:
       我们通过自我监督的试错学习联合推动和掌握政策。只有及时抓住,推动动作才有用。这与先前定义用于推动运动的试探法或硬编码目标的方法形成对比。
       我们通过一个深度网络对我们的政策进行端到端的培训,该网络接受视觉观察,并为潜在的推动和把握行动输出预期回报(即以Q值的形式)。然后,联合政策选择Q值最高的行动,即最大化当前/未来把握预期成功的行动。这与基于手动设计的特征明确感知单个物体并在其上规划动作形成对比[12]。
这个公式使我们的系统能够在非结构化拣选场景中执行复杂的对象顺序操作(推送和抓取),并推广到新奇物件(训练中看不到)。
在物理系统上通过强化学习来训练深度端到端策略(例如,从图像像素到关节扭矩)可能既昂贵又耗时,因为它们的样本复杂性非常高[13],[14],[15]。为了使训练在真实机器人上易于处理,我们将动作空间简化为一组末端执行器驱动的运动原语。我们将该任务表述为像素标记问题:其中每个图像像素——以及图像方向——对应于在场景中该像素的3D位置上执行的特定机器人运动原语(推动或抓取)。对于推动,该位置代表推动运动的开始位置;对于抓握,平行颌抓握时两个手指之间的中间位置。我们训练一个全卷积网络(FCN)来获取场景图像作为输入,并推断所有像素的未来预期奖励值的密集像素方式预测,从而为场景中所有可见表面执行所有机器人运动原语。这种机器人原始动作的像素参数化,我们称之为完全卷积的actionvalue函数[8],使我们能够在不到几个小时的机器人时间内在单个机器人手臂上训练有效的推动和抓取策略。
本文的主要贡献是为连接数据驱动的可理解和不可理解的操作提供了一个新的视角。我们证明,有可能训练端到端的深度网络来捕获互补的推动和掌握策略,这些策略通过经验相互受益。我们在模拟和真实环境中提供了一些实验和消融研究,以评估我们系统的关键组件。我们的结果表明,推送策略扩大了抓取成功的场景集,并且两个策略协同工作产生了与对象的复杂交互(超出了我们的预期),支持更有效的抓取(例如,一次推送多个块,分离两个对象,通过一系列提高抓取的反应来分解一组对象)。我们提供额外的定性结果(我们的机器人在行动中的视频记录)、代码、预先训练的模型和http://vpg.cs.princeton.edu的模拟环境。

相关著作

我们的工作处于机器人操作、计算机视觉和机器学习的交叉点。我们简要回顾了这些领域的相关工作。非综合性操作。规划不可理解的运动,如推动,是一个基本问题,可以追溯到机器人操作的早期。这一领域的文献非常丰富,很早就从经典解决方案中出现,这些解决方案明确地模拟了摩擦力推动的动力学[1],[2]。虽然令人鼓舞,但这些方法中的许多依赖于在实践中不成立的建模假设[16],[4]。例如,物体表面上不均匀的摩擦分布和摩擦的可变性只是可能导致对现实环境中摩擦建模推动解决方案的错误预测的一些因素。虽然最近的方法探索了数据驱动的算法来学习推送的动力学[17],[18],[19],但这些工作中的许多主要集中在一次对一个对象执行稳定推送上。面对严重的混乱和摩擦变化,对推力的大规模后果进行建模仍然是一个复杂的问题;有效地使用这些模型来发现真实环境中的最优策略——甚至更多。
抓紧。抓取也在基于模型的推理领域得到了很好的研究;从模拟接触力及其对外部扳手的阻力[20],[21],到通过其约束物体移动性的能力来表征抓地力[22]。在真实系统中部署这些方法的常见方法包括从已知3D对象模型的数据库中预先计算抓取[23],并在运行时使用点云配准对它们进行索引,以进行对象姿态估计[24],[25]。然而,这些方法通常假设对象形状、姿态、动力学和接触点的知识——这些信息对于非结构化环境中的新对象来说很少为人所知。
最近的数据驱动方法探索了训练模型不可知的深度抓取策略[26],[7],[27],[9],[10],[8]的前景,这些策略通过利用学习的视觉特征来检测抓取,而不显式使用对象特定的知识(即形状、姿势、动力学)。Pinto等人[27]通过使用在辅助任务(如戳)上预先训练的模型来提高这些深度策略的性能。Zeng等人[8]证明了使用FCNs来有效地用可负担性对这些策略建模可以极大地改善运行时间。类似于这些方法,我们的数据驱动框架是模型不可知的,但是通过结合非可理解的动作(如推送)来提高抓取的性能。
抓着推着。将非可理解性和可理解性操纵政策结合起来是有趣的,尽管这是一个很少被探索的研究领域。Dogar等人的开创性工作[11]为推动抓取(在抓取图元中烘焙的非可抓取运动)提供了一个强大的规划框架,以减少抓取的不确定性,并提供了一个额外的运动图元-扫掠-以在混乱中绕过障碍物。然而,其框架内的政策基本上仍然是手工制作的。相比之下,我们的方法是数据驱动的,通过自我监督在线学习。
其他方法[28],[6]探索了推动运动的无模型规划,以将物体移动到更有利于预先设计的抓取算法的目标位置——这些算法的行为通常是手工制作的、固定的,并且事先众所周知。这些知识主要用于定义具体的目标(如目标职位),这些目标有助于推动政策的设计或培训。然而,试图为数据驱动的模型不可知的抓取策略(最佳行为从经验中产生)定义类似的目标变得不太清楚,因为这些策略随着时间的推移随着更多的数据不断学习、改变和适应行为。
与我们的工作更密切相关的是Boularias等人的工作[12],该工作探索了强化学习在训练控制策略中的应用,以在推和抓中进行选择以手工制作的特征为代表的建议。他们提出了一种流水线,首先将图像分割成对象,提出推动和抓握动作,为每个动作提取手动调整的特征,然后执行具有最高预期回报的动作。虽然鼓舞人心,但他们的方法分别对感知和控制策略建模(不是端到端);它依靠基于模型的模拟来预测被推物体的运动,并推断其对未来抓取的好处(这些预测是提供给推策略的两个“特征”);它被调整为主要适用于凸形对象,并且只在一个只有两个对象的场景中进行了演示(一个圆柱体紧挨着一个盒子)。相比之下,我们用端到端的深度网络训练感知和控制策略;我们没有对对象的形状或动力学进行假设(无模型),我们证明了我们的公式不仅适用于具有众多对象(最多30+)的各种测试用例,而且能够快速推广到新的对象和场景。据我们所知,我们的工作是第一个无模型系统,通过从视觉观察到行动的端到端操作的深度网络来执行互补推送和抓取策略的强化学习。

问题定式化

我们将推-抓任务表述为一个马尔可夫决策过程:在任意给定的状态st统计时间t,智能体(即机器人)根据策略π(st)选择并执行一个动作,然后转移到新的状态st+1,并立即获得相应的奖励Rat(st,ST+1)。我们的机器人强化学习问题的目标是找到一个最优策略π∫,它使未来回报的期望和最大化,由Rt = P∨I = tγRai(si,si+1)给出,即从时间t到∨的未来回报的无限范围内的γ-贴现和。
在这项工作中,我们研究了使用非策略学习来训练一个贪婪的确定性策略π(st ),该策略通过最大化动作值函数(即Q函数)来选择动作,该函数测量在状态统计时间t内采取动作的预期回报。形式上,我们的学习目标是迭代地最小化时间差异误差δtof Qπ(st,at)到一个固定的目标值yt: δt= |Q(st,at )- yt | yt = Rat(ST,st+1) + γ Q四.方法本节提供了我们的Q学习公式、网络架构和培训协议的细节。
a .状态表示
我们将每个状态建模为场景在时间t的RGB-D高度图图像表示。为了计算该高度图,我们从固定安装的摄像机捕获RGB-D图像,将数据投影到3D点云上,并在重力方向上正射反投影,以构建同时具有颜色(RGB)和自底向上(D)通道的高度图图像表示(见图2)。高度图的边缘是相对于用于拾取的代理工作空间的边界预定义的。在我们的实验中,这个区域覆盖了0.4482米的桌面。由于我们的高度图的像素分辨率为224 × 224,因此每个像素在空间上代表代理工作空间中一个22毫米的垂直3D空间列。
B.原始动作
我们将每个动作参数化为在3D位置q执行的运动原始行为ψ(例如,推或抓),该3D位置q从状态st的高度图图像表示的像素p投影:
a = (ψ,q)|ψ∞{推,抓},q?p ∈ st
我们的运动原语行为定义如下:
push。表示在k = 16个方向之一上10cm推动的开始位置。推动的轨迹是直的。在我们的实验中,它是使用闭合的两指抓取器的尖端物理执行的。
抓取:q表示自上而下平行颚抓取在k = 16个方向之一的中间位置。在抓握过程中,两个手指试图在闭合手指前在q下方3厘米(重力方向)移动。在这两种基本体中,机器人手臂的运动规划是通过稳定、无碰撞的IK解算自动执行的[29]。
c.学习完全卷积作用值函数
我们通过将我们的Q函数建模为两个前馈完全卷积网络来扩展普通的深度Q网络(DQN)[30][31]φpandφg;每个运动基本行为(分别是推和抓)一个。每个单独的FCNφψ将状态支架的高度图图像表示作为输入,输出具有与st相同的图像大小和分辨率的密集像素方式的Q值图,其中像素p处的每个单独的Q值预测表示在3D位置Q执行图元ψ的未来预期回报,其中Q?请注意,这个公式是Q学习和基于视觉启示的操作的直接融合[8]。
两个fcnφpandφGSH都是相同的网络架构:两个并行的121层DenseNet [32]在ImageNet [33]上预先训练,然后是信道级级联和两个额外的1 × 1卷积层,与非线性激活函数(ReLU)交织[34]和空间批处理归一化[35],然后进行bilinearly上采样。一个DenseNet塔将高度图的颜色通道(RGB)作为输入,而另一个塔将高度图的通道方向克隆深度通道(DDD)(通过减去平均值并除以标准偏差来归一化)作为输入。
为了简化用于推动和抓握的面向学习的运动原语,我们通过旋转输入高度图steado k = 16个方向(22.5的不同倍数♀)来说明不同的方向,然后在旋转的高度图中仅考虑水平推动(向右)和抓握。因此,每个FCNφψ的输入是k = 16个旋转高度图,总输出是32个像素的Q值图(16个用于不同方向的推动,16个用于不同方向的抓取)。最大化Q函数的动作是在所有32个像素级映射中具有最高Q值的图元和像素:argmaxa0 t(Q(st,a0 t)) = argmax(ψ,p)(φp(st),φg(st))。
我们的状态空间和动作空间的像素参数化允许使用fcn作为Q函数逼近器,这提供了几个优点。首先,每个动作的Q值预测现在具有相对于其他动作以及状态的输入观察(例如,利用感受野)的空间位置的明确概念。其次,fcn对于像素计算是有效的。我们的网络架构φψ的每个前向传递平均需要75毫秒来执行,这使得能够在2.5秒内计算所有1,605,632(即224 × 224 × 32)个可能动作的Q值。最后,我们的FCN模型可以用更少的训练数据收敛,因为末端效应器位置(像素采样)和方向(通过旋转st)的参数化使得卷积特征能够跨位置和方向共享(即平移和旋转的等方差)。
用于Q函数估计的深度网络的其他扩展,如双Q学习[36]和duelling网络[37],具有提高性能的潜力,但不是这项工作的重点。
d .奖励
我们的强化学习奖励计划很简单。如果抓取成功,我们分配Rg(st,st+1) = 1(通过抓取尝试后抓取器手指之间的对跖距离的阈值化计算)和Rp(st,st+1) = 0.5,用于对环境做出可检测变化的推动(其中,如果高度图之间的差异之和超过某个阈值τ,即p(ST+1 ST)>τ,则检测到变化)。请注意,内在奖励Rp(st,st+1)没有明确考虑推动是否能够实现未来的把握。相反,它只是鼓励系统做出推动,从而导致改变。推和抓之间的协同作用主要是通过强化学习的(见第二节的实验。V -C)。
E.训练细节
我们的Q学习fcn在每次迭代I时使用Huber损失函数进行训练:Li =(1 ^ 2(QθI(si,ai)yθI I)2,对于|Qθi(si,ai)yθI | < 1,|Qθi(si,ai)yθI | 1 ^ 2,否则。其中θIAR是迭代I时的神经网络参数,目标网络参数θI在每次更新之间保持固定。我们仅通过单个像素p和网络φψ传递梯度,从该网络计算执行动作ai的值预测。迭代I中的所有其他像素以0损失反向传播。
我们通过动量随机梯度下降训练fcnφψ,使用10-4的固定学习率,0.9的动量和2-5的权重衰减。我们的模型在PyTorch中训练,NVIDIA Titan X搭载英特尔至强处理器E52699 v3,时钟频率为2.30千兆赫。我们使用基于随机等级的优先级进行优先体验回放[38]训练,近似为幂律分布。我们的探索策略是?-贪婪,用什么?初始化为0.5,然后在训练中退火至0.1。我们未来的折扣γ恒定在0.5。
在我们的实验中(秒。v),我们用同样的程序通过自我监督来训练我们所有的模型:随机选择n个物体(即玩具积木)并放入机器人前方0.4482米的工作空间。然后,机器人通过反复试验自动执行数据收集,直到工作空间没有对象,此时n个对象再次被随机放入工作空间。在模拟中n = 10,而在现实环境中n = 30。
f 测试细节
因为我们的策略在测试期间是贪婪的确定性的,所以当状态表示(以及因此的值估计)保持不变时,它可能会在重复执行相同的动作时卡住,因为环境没有发生变化。由于我们对动作空间的像素式参数化,基于访问次数天真地对动作进行加权也是低效的。因此,为了缓解这个问题,在测试期间,我们在10-5给网络规定了一个小的学习速率,并在每次执行动作后继续在网络中反向传播梯度。出于评估的目的,在每次新的实验测试运行之前,网络权重被重置为其原始状态(在训练之后和测试之前)——由工作空间中的所有对象已被成功抓住(即完成)或连续执行的动作数量(对于这些动作,环境没有变化)超过10表示。

实验

我们执行了一系列实验来测试所提出的方法,我们称之为“视觉推动抓取”(VPG)。实验的目标有三个方面:1)研究添加推送作为运动原语是否可以扩大对象可以被成功抓取的场景集(即推送是否有助于抓取),2)测试主要从同时训练的另一个抓取策略的未来预期成功来训练具有监督的推送策略是否可行,以及3)证明我们的公式能够直接从真实系统上的视觉观察来训练有效的、非琐碎的推送抓取策略。
a:基线方法
为了实现这些目标,我们将VPG的采摘性能与以下基线方法进行了比较:
反应性仅抓取策略(仅抓取)是一种抓取策略,它使用与我们在第四节中描述的建议方法相同的像素状态和动作空间公式,但使用单个FCN监督的二进制分类(通过反复试验)来推断仅抓取的像素启示值,该值介于0和1之间。该基线是一个贪婪的确定性策略,遵循在每个时间步长t最大化即时抓取启示值的动作。该基线类似于最先进的自顶向下平行颌抓取算法的自我监督版本[8]。为了公平比较,我们使用在ImageNet [33]上预先训练的DenseNet [32]扩展了该方法。
反应性推送和抓取策略(P+G反应性)是先前基线的增强版本,但增加了一个FCN,用于推断推送的像素级启示值介于0和1之间。这两个网络都是用自监督试错的二进制分类进行训练的,其中推送是用来自变化检测的二进制值进行明确监督的(如IV -D部分所述)。变更检测是对推送进行直接监督的最简单形式,但需要更高的?为探索策略保持稳定训练。该策略遵循最大化即时可负担价值的行动(可以来自推动或抓住fcn)。
前面提到的两个基线都是被动的,因为它们没有计划长期策略,而是贪婪地基于从当前状态测试#00测试#01测试#09训练场景st计算的启示来选择动作。我们针对这些基线的训练优化参数保持与VPG相同。
B.评估指标
我们通过执行一系列测试来测试这些方法,在这些测试中,系统必须从具有新颖对象排列的表中挑选和移除对象(如第节所述)。四-六)。
对于每个测试,我们执行n次运行(n∞10,30),然后用3个指标评估性能:1)n次测试运行的平均%完成率,它通过拾取所有对象而不连续失败超过10次来衡量策略完成任务的能力,2)每次完成的平均%把握成功率,以及3)动作效率百分比(定义为完成前测试#动作中的# objects),它简洁地描述了策略完成任务的能力。请注意,抓取成功率相当于只抓取策略的动作效率。对于所有这些指标,越高越好。
我们在模拟和现实平台上运行实验。虽然我们的主要目标是在真实机器人上演示有效的VPG策略,但我们也在模拟中运行实验,为方法之间的公平评估和消融研究提供受控环境。在两个平台上的实验中,我们用随机和挑战性排列的对象运行测试。
c .仿真实验
我们的仿真设置使用了一个UR5机械臂,该机械臂带有V -REP [39](如图3所示)中的RG2手爪,子弹物理学2.83用于动力学,V -REP的内部逆运动学模块用于机器人运动规划。模拟中的每次测试运行n = 30次。这些模拟中使用的对象包括9种不同的3D玩具积木,它们的形状和颜色是在实验过程中随机选择的。除了摩擦系数之外,大多数动力学参数都保持默认,摩擦系数已被修改,以实现尽可能类似于真实世界的合成对象交互行为。在我们的实验中,我们没有对模拟物理的随机种子进行任何调整。我们还在环境中模拟了一个静态安装的透视3D相机,从中捕获感知数据。分辨率为640×480的RGBD图像使用来自相机的OpenGL渲染,没有任何深度或颜色的噪声模型。
与基线的比较。我们的第一个实验在一个模拟中比较了VPG和两种基线方法,在这个模拟中,30个物体被随机放在一张桌子上。这个场景类似于训练场景,只是它有30个对象,而不是10个,因此测试了将策略推广到更混乱的场景。结果如表一所示。我们看到VPG在所有指标上都优于两种基线方法。有趣的是,P+G reactive在完成率和行动效率方面表现不佳。这可能是因为它倾向于(面对混乱)不断推来推去的对象,直到他们被迫离开工作空间,因为抓取启示仍然很低。
具有挑战性的安排。我们还将模拟中的VPG与11个具有挑战性的测试用例中的基线方法进行了比较。每个测试用例由放置在机器人前面的工作空间中的3 - 6个对象的配置组成,其中3个配置如图3所示。这些配置是手动设计的,以反映具有挑战性的拣货场景,并且不包括在培训程序中(如第节所述)。四-五)。在许多这样的测试案例中,对象紧密地并排放置,放置的位置和方向使得即使是最优的抓取策略也很难在没有首先去杂的情况下成功地拾取任何对象。作为健全性检查,一个单独的对象被附加地放置在工作空间中,与配置分开。这只是为了确保在基准测试之前,所有策略都经过了充分的训练(即,如果一个策略没有抓住孤立的对象,它就没有准备好)。
结果如表二所示。从完成结果来看,我们观察到推动的增加扩大了成功抓取的场景集合。在测试用例的集合中,只抓策略经常努力完成挑选任务(11个测试用例中有5个的完成率为0%)。我们观察到,在大型长方体紧密并排放置的情况下,情况尤其如此(图3)。即使策略确实成功完成任务,平均抓取成功率也保持在50-60%的相对较低水平。
在P+G反应策略中添加推送作为额外的操作原语后,我们立即看到提货完成率的提高,并且不再有策略以0%的完成率完全失败的情况。P+G反应策略比graspingonly实现了更高的完成率和抓取成功率,但平均动作效率较低。这表明该策略执行了大量推送,其中许多推送并不简洁,实际上可能无助于理解。这是意料之中的,因为P+G reactive使用来自变化检测的二元监督来推动——推动运动并不直接由它们帮助抓握的程度来监督。
通过实现与VPG的推进和抓取联合规划,我们观察到了显著更高的完成和抓取成功率(11个测试用例中有5个的完成率为100%)。更高的动作效率也表明,推动现在在如何帮助抓握方面更加简洁。没有推送奖励?我们接下来研究我们的方法是否可以学习协同推动和抓握动作,即使没有任何推动的内在回报(Rp(st,st+1) = 0)。我们称这种算法的变体为“VPG-诺沃德”。在这种更困难的背景下,推动政策学会了通过未来掌握所提供的奖励来实现改变。
在这项研究中,我们用10个随机放置的对象进行模拟测试。我们用抓握性能与训练步骤的关系图来报告结果。抓取性能通过在最后j = 200次抓取尝试中的%抓取成功率来测量,如图4中的实线所示。我们还报告了按下后抓取的成功率百分比(即按下后立即抓取-如果抓取成功,则视为成功),用虚线表示。由于实际上没有办法测量推动运动的质量,来衡量它们对无模型抓取策略的好处,所以这个次要的度量标准可以作为一个很好的近似值。在图4中较早的训练步骤(即迭代i < j)中报告的数字用i j加权。每个训练步骤包括捕获数据、计算向前传递、执行动作、反向传播和运行体验重放的单次迭代(对来自重放缓冲器的样本进行另一次向前传递和反向传播)。
从这些结果中,我们看到VPG-诺沃德能够学习有效的推动和抓取策略——抓取成功率达到70-80%。我们还看到,它学习了一种越来越有助于把握的推动策略(注意红色虚线的正斜率,这表明随着系统的训练,推动越来越有助于未来的把握)。这个提升速度不如VPG,但最终的表现只是略低。
没有ImageNet预培训?我们在没有FCN权重的ImageNet预训练的情况下训练了一个版本的VPG(“VPG-nopretrain”),并在图5中报告了其相对于训练步骤的性能。有趣的是,结果表明ImageNet预训练对VPG的样本效率和模型在仿真中的最终性能都没有很大的贡献。这可能是因为在ImageNet图像中发现的像素模式的统计数据与重投影高度图图像的统计数据不同。训练曲线向上倾斜之前的轻微延迟也可能是一个假象,因为fcn花费早期训练步骤来逃避ImageNet局部最优。没有自下而上的高度信息?我们在没有ImageNet预训练和没有RGB-D高度图图像的深度通道的情况下训练了另一个版本的VPG(“VPG-nopretrain-nodepth”),并在图5中报告了其性能。这种修改意味着,每个FCN φpand和φgno不再有第二个DenseNet塔来计算高度图中按通道克隆的深度通道(DDD)的特征。结果表明,样本复杂度保持不变,但平均最终抓取性能降低了约15%。这表明来自深度(从底部的高度)通道的几何线索对于实现VPG的合理抓握表现是重要的。
短视的政策?我们还研究了长期前瞻的重要性。我们的Q-learning公式在理论上使我们的政策能够规划长期战略(例如,链接多个推动以实现抓取,抓取以实现推动,抓取以实现其他抓取,等等。).为了测试这些策略的价值,我们训练了VPG的近视版本(“VPG近视”),其中未来奖励的折扣因子在γ = 0.2时较小(在模拟中训练了10个随机放置的对象)。我们在模拟的11个硬测试案例中评估了这个策略,并在表三中报告了与我们的方法的比较。有趣的是,我们看到VPG近视症在训练早期以更快的速度提高了其抓握性能(大概是针对短期抓握奖励进行了优化),但最终在大多数硬测试案例中实现了更低的平均性能(即抓握成功、动作效率)。这表明,为连续操纵计划长期策略的能力可能有利于取放的整体稳定性和效率。
d .真实世界实验
在本节中,我们评估了在真实机器人上表现最佳的VPG变体(有奖励和长期规划)。我们的真实设置包括一个带有RG2抓手的UR5机械臂,可以俯瞰桌面场景。不同实验中的物体各不相同,包括30多个不同玩具积木的集合,用于训练和测试,以及其他随机办公物体的集合,用于测试对新颖物体的概括(见图7)。对于感知数据,分辨率为640 × 480的RGB-D图像是从英特尔RealSense SR300捕获的,静态安装在固定三脚架上,俯瞰桌面环境。摄像机通过自动校准程序相对于机器人基座进行定位,在此过程中,摄像机跟踪粘在抓手上的棋盘图案的位置。当机器人在摄像机视野内的三维位置网格(相对于机器人坐标预定义)上移动抓取器时,校准针对外部进行了优化。随机安排。我们首先在杂乱的环境中用30个随机放置的物体在真实的机器人上测试了VPG。图6显示了与仅抓取策略(基线方法)相比,它的性能与训练时间的关系,其中曲线显示了两种方法在最后m = 200次抓取尝试中的%抓取成功率(实线)和%先推后抓成功率(虚线)。
有趣的是,在训练早期,VPG和只抓的表现相似。这是令人惊讶的,因为人们会期望VPG需要更多的训练样本(因此需要更多的训练时间)来实现类似的表现,因为每个训练步骤只能执行一个动作(抓或推)。性能增长的这种相似性可能归因于我们优化推送策略的方法,即使在训练的早期阶段也能使抓取变得更容易。当只抓的政策忙于微调自己以检测更难抓的时候,VPG花时间学习推动,这可以使抓变得更容易。
不出所料,在后面的训练步骤中,VPG策略的抓取性能超过了只抓取策略。不仅性能更好,而且不那么飘忽不定。这很可能是因为它避免了长时间的抓取失败,这种情况偶尔会发生在抓取时——只有在面对高度杂乱的对象配置时。
这个实验还表明,VPG的样本效率相当高——我们能够在不到2000次转型中训练有效的推动和把握政策。在真正的机器人上,每个动作执行10秒,这相当于大约5.5小时的挂钟训练时间。这相对于先前在深度强化学习用于操作方面的工作(例如,1000万次样本转换(16个机器人上10小时的交互时间)用于块堆叠[14])具有实质性优势。
具有挑战性的安排。我们还在真实世界中运行了实验,将VPG和抓取进行了比较——仅在7个具有对抗性混乱的挑战性测试用例上(参见图7的顶行中的示例)。结果见表四。请注意,在这些具有挑战性的现实案例中,VPG和只抓的区别非常大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值