论文笔记（七十一）Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning（二）

本文链接：https://blog.csdn.net/xzs1210652636/article/details/145524453

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning（二）

文章概括
4. 实验结果
5. 结果分析
- 5.1 学习到的策略的可靠性
- 5.2. 反应式策略和预测式策略
6. 讨论

文章概括

引用：

@misc{luo2024hilserl,
      title={Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning},
      author={Jianlan Luo and Charles Xu and Jeffrey Wu and Sergey Levine},
      year={2024},
      eprint={2410.21845},
      archivePrefix={arXiv},
      primaryClass={cs.RO}
}

Luo, J., Xu, C., Wu, J. and Levine, S., 2024. Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning. arXiv preprint arXiv:2410.21845.

原文： https://arxiv.org/abs/2410.21845
代码、数据和视频：

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

强化学习（RL）在赋予机器人自主获取复杂操作技能方面具有巨大潜力，但在真实世界环境中实现这一潜力仍然充满挑战。我们提出了一种基于视觉的、引入人类反馈的强化学习系统，该系统在一系列灵巧操作任务上展现出了卓越的性能，包括动态操作、精密装配和双臂协调。我们的方法结合了示范学习和人类修正、高效的强化学习算法以及其他系统级设计选择，从而能够在仅1至2.5小时的训练时间内学习出近乎完美的成功率和快速的循环时间。我们证明了该方法在成功率上相较于模仿学习基线和先前的强化学习方法平均提升了2倍，并且执行速度提高了1.8倍。通过大量实验和分析，我们深入探讨了该方法的有效性，展示了它如何学习出稳健且自适应的策略，既可用于反应式控制，也可用于预测性控制策略。我们的结果表明，强化学习确实可以在现实世界中直接学习一系列复杂的基于视觉的操作策略，并且所需的训练时间在实际可接受的范围内。我们希望本研究能够激发新一代的机器人操作技术，为工业应用和研究进展带来益处。视频和代码可在我们项目网站https://hil-serl.github.io/获取。

4. 实验结果

在本节中，我们讨论我们的实验。我们首先介绍实验设置和结果，然后分析这些结果及其意义。

4.1. 实验概览

我们在七个多样化的任务中进行了实验，这些任务涵盖了一系列不同的特性，如图3所示。这些任务包括多种操控挑战，例如：

动态物体操控（例如，在平底锅中翻转物体）；
精确且细腻的操控（例如，将SSD插入匹配的插槽）；
动态与精确操控的结合（例如，在目标移动时插入组件）；
柔性物体操控（例如，组装正时皮带）；
包含多个子任务的多阶段任务（例如，组装IKEA货架）。

我们通过使用单臂机器人或双臂机器人设置，并结合多种观测和动作的组合，解决了这些任务。

观测空间可以包括：腕部和侧面摄像头的图像、末端执行器的位姿、速度、力/力矩，以及两个机械臂当前夹爪的状态。对于动态任务，动作空间直接在末端执行器坐标系中发送前馈力矩指令，这可以粗略地理解为期望的加速度。

对于其他任务，动作空间可以包括每个机械臂下游阻抗控制器的6D笛卡尔速度目标，以及用于控制一个或两个夹爪的离散动作。

对于所有任务（如未特别说明），我们训练了一个二元分类器作为奖励检测器。该分类器以腕部和/或侧面摄像头的图像作为输入，并预测当前状态是否完成了当前任务。为了训练这样的分类器，我们从人类操作员处收集正负示范数据，并在必要时收集潜在的假阳性或假阴性示例。每个任务的训练过程细节见补充材料。

对于涉及抓取的任务，我们还为夹爪动作设置了一个小的负奖励，以避免策略不必要地操作夹爪。每个任务还通过脚本化的机器人运动或手动人类重置来随机化任务的初始状态。每个任务的设置和策略训练的详细信息可在补充材料中找到。

在本节的剩余部分，我们将详细描述每个任务，并展示相关结果以及与其他最先进方法的比较。

4.2. 任务描述

在本小节中，我们将介绍实验中的任务。我们选择的任务涵盖了广泛的操控挑战，包括接触丰富的动力学、双臂协调、柔性物体处理以及动态操控。这里，我们将任务按相似挑战进行分类组织。我们首先介绍两个需要在接触丰富环境中进行精确操控的任务，然后介绍三个需要双臂协调以解决困难任务（包括柔性物体操控）的任务，最后介绍两个需要动态操控的任务。每个任务的示意图见图3。

主板组装
主板组装任务包括四个子任务：

将RAM插入其匹配的插槽；
将PCI-E SSD装配到主板上；
拾取一个漂浮的USB线缆并将其插入插槽；
将USB线缆固定在一个紧密的夹子中。

RAM 插入任务
在此任务中，机器人需要将一块RAM插入匹配的插槽。整个过程分为两个主要步骤：首先需要将RAM与插槽两侧的窄开口对齐，然后向下施加适当的力以将RAM卡插入插槽中。如果RAM卡完全插入插槽且未触发锁定机制（从而便于重置），任务则被视为成功。如果需要，还可以在执行训练好的策略后施加额外的向下力以将RAM卡锁定到位。

此任务的难点在于，施加稍微过大的力可能会导致RAM卡在夹爪中倾斜，从而导致任务失败；而施加的力不足则可能导致RAM卡无法正确插入插槽。任务假设RAM卡已经被机器人预抓取，但我们也会周期性地将其放回固定装置并重新抓取，以引入抓取的多样性。

SSD 装配任务
在此任务中，机器人需要将SSD的一侧插入匹配的插槽中，然后将另一侧放置到主板中的固定装置上。如果SSD的两侧均正确插入其对应的配件中，则任务被视为成功。

此任务要求初始插入时需要温和但精确的策略，以避免损坏接触针脚，随后需要另一精确动作以使另一侧与支撑固定装置对齐。任务假设SSD已被机器人预抓取，但我们也会周期性地将其放回固定装置并重新抓取，以引入抓取的多样性。

USB 接头抓取与插入任务
在此任务中，USB线缆被自由放置在桌面上，机器人需要抓取USB接头部分，将其插入对应的插槽中并释放夹爪。如果USB接头完全插入插槽且夹爪被释放，则任务被视为成功。

任务的难点在于USB线缆初始放置的多样性以及抓取姿态的不确定性；策略必须在插入过程中学会处理这些不确定性。例如，如果执行了不适合的抓取，策略可能需要释放物体并重新抓取，以获得更好的抓取姿态。

USB 线缆夹入任务
此任务假设USB线缆已经插入主板，机器人需要拾取线缆的剩余部分并将其插入紧密的理线夹中。如果USB线缆完全插入夹子中，则任务被视为成功。任务的难点在于柔性USB线缆的变形性以及紧密插入阶段的挑战。

整体组装任务
我们还通过将上述四个子任务串联起来执行了完整的组装任务，在子任务之间使用脚本化动作进行过渡。整个组装过程的视频片段可以在我们项目网站和补充材料中找到。视频展示了计算机在执行整个组装策略后成功启动，这验证了我们方法的有效性，不仅实现了任务成功，还优雅地完成了强化学习训练过程，而不会损坏这些精密组件。

IKEA 组装任务
IKEA组装任务涉及用四块板组装一个IKEA货架，并分解为三个子任务：机器人首先需要将两个侧面板安装到固定在桌上的面板上，然后在侧面板组装完成后将顶面板安装到侧面板上。如果所有部件都正确组装到货架中，则任务被视为成功。对于所有子任务，我们假设面板已被机器人预抓取，但我们会周期性地将面板放回固定装置并重新抓取，以引入抓取的多样性。

侧面板组装任务
在此任务中，假设机器人已预抓取侧面板的顶部部分，但由于面板较重，在交互组装过程中抓取位置可能会有所变化，我们会周期性地从固定装置重新抓取面板。如果侧面板的底部部分正确地装配到两个匹配的插针上，则任务被视为成功。

顶面板组装任务
在两个侧面板组装完成后，此任务要求机器人将顶面板安装到两个侧面板上。如果顶面板的所有四个插针均正确插入侧面板上的对应孔中，则任务被视为成功。此任务的难点在于组装过程中侧面板的顶部部分可能会移动，策略必须适应这些变化才能完成任务。

整体组装任务

我们还通过将三个训练好的策略串联起来，执行了完整的组装任务，并使用脚本化动作在子任务之间进行过渡，如图3和补充材料所示。对于每个子任务，我们在脚本化的抓取位姿中在每个平移维度上随机化1厘米，以引入策略的多样性。如果所有面板都成功组装完成，则任务被视为成功，并且每个子策略最多允许尝试两次。

由于这是一个时间跨度较长的任务，我们对串联策略进行了10次实验。

在这里插入图片描述 图3：实验任务示意图
(A)-(E)：主板组装任务的序列，包括SSD安装、RAM插入、USB线缆抓取与插入到插槽和夹子中，以及启动计算机以确保主板功能正常。
(F)：IKEA家具组装的操控序列：机器人首先组装两个侧面板，然后将顶面板安装到已固定的侧面板上。
(G)：汽车仪表板的组装序列：两个机器人手臂首先抓取工件，然后将多个插针对齐到插槽中。
(H)：两个手臂执行协调的物体传递任务。
(I)：两个手臂执行正时皮带安装任务。
(J)：Jenga积木抽取任务的操作序列，机器人需要从塔中抽出一块积木而不破坏塔结构。
(K)：机器人在平底锅中翻转物体至其另一侧的任务。

汽车仪表板组装任务
如图3所示，汽车仪表板组装任务包括两个阶段：两个机械臂首先需要在工件的合适位置抓取，然后将其抬起并装配到仪表板上。如果工件的所有插针均完全插入仪表板上的对应孔中，则任务被视为成功。

此任务需要精确操控和双臂协调：两个机械臂必须协调动作的时间以及夹爪的闭合时机，以便同时抬起工件、旋转并对齐多个插针。

物体传递任务
在此任务中，两个机械臂需要协调动作，将物体从一个篮子转移到另一个篮子。右臂首先从右侧的篮子中拾取物体，然后将物体传递给左臂，左臂将物体精确地放入左侧的篮子中。如果物体平放在左侧篮子中，则任务被视为成功。

任务的难点在于传递部分：机器人夹爪必须协调动作的时机，以防止物体掉落。

正时皮带组装任务
在此任务中，两个机械臂协作将正时皮带安装到滑轮上并调整张紧器。这一任务是NIST电路板组装挑战赛的一部分（Kimble et al., 2020）。过程包括定位和操控随机放置的皮带，协调精确动作以将皮带穿过两个滑轮，并同时激活张紧器以适应皮带。任务成功的标准是皮带正确穿过两个滑轮并且张紧器被牢固拧紧。

此任务具有多个挑战：皮带在组装过程中可能会不可预测地变形，需要适应性操控。机械臂必须精准协调，按时进行动作以有效穿过皮带。张紧器的调整时机至关重要：既要允许皮带穿过，又要避免卡住。

在整个过程中，策略必须根据柔性皮带和整体系统配置的变化持续调整。任务的复杂性来源于需要处理柔性物体，同时精准协调双臂动作并管理张紧器机制。这要求策略开发出复杂且反应灵敏的行为，以确保任务的一致性成功。

Jenga 积木抽取任务
在此任务中，机器人需要以鞭打动作将Jenga塔中的特定积木抽出，同时保持塔的稳定，不使其倒塌。

与前面的任务相比，此任务的本质完全不同，因为它要求机器人学习一种高度动态的开环行为，而不是先前任务中所需的反应式闭环控制行为。该任务的动力学极其复杂：柔性的鞭子以极高的速度运动，并与周围的压缩空气相互作用，使得其轨迹难以预测。此外，确定移除特定积木所需的精准力控制也是一项挑战，因为涉及复杂的接触动力学，稍有不慎就会导致整个塔失稳。

策略必须通过观察自身动作的结果、直觉物理学以及鞭子与积木之间的相互作用，发展出类似反射的行为。这使得机器人能够执行精确且稳定的动作，从而成功移除目标积木而不导致塔的倒塌。

值得注意的是，在此特定任务中，我们使用30次专家示范数据初始化离线数据集，而不是在训练过程中使用实时人类修正。我们之所以做出这一选择，是因为在训练过程中引入人类反馈在此任务中既不现实，也不适用，这主要是由于任务的特殊动态特性。

物体翻转任务
在此任务中，一个物体被随机放置在连接到机器人末端执行器的平底锅上，机器人需要沿水平轴翻转该物体。如果物体成功翻转至相反的一面且仍然留在平底锅内，则任务被视为成功。

由于物体的初始放置位置是随机的，策略必须学会适应这些变化，例如在执行翻转动作之前先将物体移动到更有利的位置。

此任务的本质与Jenga任务类似，需要精确且复杂的开环控制行为。然而，它还涉及一个闭环控制组件，因为策略可能需要在初始阶段重新定位物体，以确保翻转成功。

4.3. 实验结果

在本小节中，我们展示上述所有任务的实验结果。对于每个任务，我们报告成功率、循环时间和训练时间。训练时间包括所有脚本化运动、策略执行、预定的暂停，以及在单个NVIDIA RTX 4090 GPU上进行的板载计算。除非特别说明，所有结果均基于100次评估实验。在这些评估过程中，我们使用脚本化机器人动作或人工重置来随机化初始状态。我们的评估协议可在补充材料中找到。

本研究的核心论点是HIL-SERL在性能上优于基于人类远程操作的模仿学习方法。为了验证这一点，公平地比较相关的模仿学习方法至关重要。在等效的环境下，传统的模仿学习方法往往存在误差累积问题（Ross et al., 2011）。DAgger及其变体（Ross et al., 2011; Kelly et al., 2018）通过引入人类修正，使用监督学习逐步优化策略，从而缓解这一问题。

我们的方法同样利用人类修正，但不同之处在于我们使用这些修正数据通过强化学习进行优化，而非监督学习，并且基于特定任务的奖励进行训练。因此，我们将HIL-SERL与模仿学习方法进行对比，使用HG-DAgger（Kelly et al., 2018）作为基线模型，并确保使用与强化学习方法相同数量的人类示范和修正。

具体而言，我们首先使用行为克隆（BC） 预训练一个基础策略，并使用与HIL-SERL等量的离线人类示范数据。然后，我们运行该策略并收集人类专家修正数据，确保总实验次数和干预次数与强化学习训练相匹配。也就是说，我们运行与HIL-SERL相同数量的回合，并尝试在每个回合中提供相同数量的干预。

这一比较适用于除Jenga积木抽取和物体翻转任务之外的所有任务，因为在这些任务中，人类干预既困难又不可取。对于这些任务，我们收集50和200个离线示范数据，并使用行为克隆（BC） 训练基线策略。相较于HIL-SERL，这些基线方法使用了远超HIL-SERL所需的示范数量（HIL-SERL通常仅需要20-30次示范）。

在这里插入图片描述 (a) 不同任务下 BC 和 RL 方法的成功率及循环时间对比
所有指标均基于每个任务100次实验（IKEA整体组装任务除外，该任务进行了10次实验）。对于所有任务，BC基线方法均使用HG-DAgger，并与强化学习（RL）方法使用相同数量的实验回合和干预。然而，对于Jenga积木抽取和物体翻转任务，我们使用了“纯BC”方法（flat BC），分别基于50次和200次示范进行训练。

在这里插入图片描述

(b) 在选定任务上比较不同方法

Diffusion Policy (DP) 和 BC 均使用200次示范进行训练。
HG-DAgger 采用与RL相同数量的实验回合和干预。
IBRL、Residual RL 和 DAPG 均基于200次示范进行初始化。
HIL-SERL 还进行了两种消融实验：
1. 不使用示范或修正，直接从零训练。
2. 使用示范初始化，但不进行修正。

表1：实验结果
(a) HIL-SERL 与模仿学习基线方法（HG-DAgger）的对比。
(b) HIL-SERL 与其他不同基线方法的对比。

在这里插入图片描述 图4：实验任务的学习曲线
该图展示了HIL-SERL和DAgger在多个代表性任务上的成功率、循环时间和干预率，数据以20个回合的滑动平均值进行展示。

HIL-SERL：
- 成功率随着训练迅速提高，最终达到100%。
- 干预率和循环时间逐步减少，最终干预率降至0%。
HG-DAgger：
- 成功率在训练过程中波动较大，并未随着训练稳定上升。
- 由于频繁干预导致成功率较高，但实际策略的真实成功率可能比曲线显示的更低。
- 干预率没有随着训练减少，这表明策略未能持续改进。
- 循环时间未见显著改善，因为DAgger缺乏提升性能的机制，无法超越提供的训练数据。

更多实验数据和学习曲线可在补充材料中找到。

在所有实验中，我们使用成功率和循环时间作为主要指标来比较不同的方法。为了进一步验证我们方法的有效性，我们还报告了随时间变化的人类干预率，以展示我们的策略如何逐步改进，并减少对人类干预的依赖。理想情况下，干预率应趋向于零，表明策略能够自主执行任务。实验结果见图4和表1a。

首先，如表1所示，HIL-SERL在几乎所有任务中，仅需1至2.5小时的真实世界训练，即可达到100%的成功率。相比之下，HG-DAgger基线方法在所有任务中的平均成功率仅为49.7%。对于那些需要更复杂行为的任务，如Jenga积木抽取、RAM插入和正时皮带组装，HIL-SERL的性能优势更加明显。

我们还在图4中报告了随时间变化的人类干预次数，几乎涵盖了所有任务。具体而言，我们计算干预率，即在一个回合内，受干预的时间步数与总时间步数的比率，并以20个回合的滑动平均值进行展示。如图所示，随着训练的进行，干预率逐渐降低，这表明策略正在不断改进，并且越来越不依赖人类修正。

此外，我们观察到人类干预的总持续时间也大幅减少。在训练初期，由于策略尚未成熟，我们会进行较长且稀疏的干预。随着策略的提升，更短的干预即可修正错误。而相比之下，HG-DAgger策略需要更频繁的干预来纠正策略，且干预的总时长不一定随时间减少。这表明HIL-SERL能够以更少的人类监督实现更好的性能。

我们的方法优于HG-DAgger，这主要得益于强化学习（RL）的关键优势。RL能够探索更广泛的状态空间，并直接优化基于任务的奖励函数，而DAgger依赖于人类修正，这可能会引入不一致性，并限制对状态空间的探索。由于RL能够从自身的状态分布学习并自主纠正错误，它克服了人类示范的局限性，从而学习出更加稳健的策略。这一实验结果与Luo et al. (2023)的理论研究一致，该研究表明RL策略在理论上可以优于DAgger。此外，随着人类修正的次优性（suboptimality）增加，RL与DAgger的性能差距会进一步扩大，而任务越复杂，这种情况就越容易发生。

另一个重要的衡量因素是循环时间，即完成任务所需的时间。平均来看，HG-DAgger策略的平均循环时间为9.6秒，而我们的RL方法平均循环时间仅为5.4秒，提高了1.8倍。这一结果是符合预期的，因为模仿学习方法无法有效处理人类示范中的次优性。相比之下，强化学习能够利用动态规划优化折扣奖励的累积和。对于折扣因子 $\gamma<1$ 的情况，强化学习会鼓励策略更快地获得奖励，从而使任务执行时间更短，而模仿学习仅仅是模仿人类示范的动作，无法进行进一步优化。

从实验结果来看，我们的方法在各种具有不同物理特性的任务中都表现出良好的泛化能力和高效性，能够生成适用于不同任务要求的开环和闭环策略。

对于精确操控任务（例如正时皮带装配和RAM插入），策略学会了将任务相关的视觉特征与合适的速度控制动作关联，并执行连续的视觉伺服行为，能够实时响应视觉观测数据并调整运动，直到成功完成任务。
对于Jenga积木抽取和物体翻转等任务，策略通过交互学习预测其动作的可能结果，然后精确调整运动，以达到期望的效果，同时保持动作执行的一致性。

我们还对学习到的策略行为进行了深入分析，相关内容将在后续章节中详细讨论。

总体而言，我们的实验表明，该方法具有良好的泛化性和高效性，能够使用相同的方法成功学习一系列具有挑战性的操控任务，并在所有任务中都达到了高性能。此外，即使面对高维观测和动作空间（例如双臂协作任务），该方法仍然能够在可接受的训练时间内实现高效学习。

4.4. 鲁棒性结果

为了测试我们方法学习到的策略在零样本（zero-shot）场景下的鲁棒性，我们在图5中提供了一组定性实验结果。这些结果展示了策略在任务执行过程中如何动态适应变化，以及如何处理外部干扰，例如：

人类故意将物体从夹爪中掉落
任务执行过程中，人类强行打开夹爪

相关视频片段可在补充材料和**项目网站（https://hil-serl.github.io/）**中找到。

在正时皮带装配任务中，皮带可能会发生任意形变，策略需要在装配过程中不断适应这些变化。此外，我们人为施加外部扰动以进一步测试策略的鲁棒性。这些扰动包括人为改变皮带形状或在装配过程中动态调整皮带位置（见图5 © 和 (D)）。

在RAM插入任务中，即使目标在插入过程中不断移动，策略仍能成功完成插入。这得益于自我中心（ego-centric）表示的本体感知观测，如图5 (A) 所示。

在汽车仪表板组装任务和物体传递任务中，当策略抓取到目标物体后，我们强行打开夹爪，导致物体掉落。策略能够自主应对这一意外情况，重新尝试抓取物体，然后继续完成任务，如图5 (B)、(E) 和 (F) 所示。

在USB接头抓取-插入任务中，我们随机改变USB接头的初始姿态，并偶尔将USB从夹爪中强行弹出，以模拟次优抓取情况。策略能够自主适应这些变化，通过释放-重新抓取（regrasp） 的方式调整抓取姿态，使其更适合插入，如图5 (G) 和 (H) 所示。

这些鲁棒行为是通过强化学习训练过程中的自主探索实现的。例如，策略学会了将抓取姿态与后续的插入任务关联起来，如果发现抓取姿态不佳，它会主动释放并重新抓取物体。然而，模仿学习方法很难实现这些鲁棒行为，因为它们缺乏自主探索和从自身行为结果中学习的机制。

图5：我们方法学习到的策略的鲁棒性评估
(A) RAM插入任务：在外部扰动（例如主板移动）下的任务表现。
(B) 物体传递任务：在夹爪被强制打开后，策略能够尝试重新传递。
(C-D) 正时皮带任务：策略能够对外部扰动和皮带意外变形进行反应式调整。
(E-F) 仪表板装配任务：在一个或两个夹爪被强制打开后，策略执行重新抓取（re-grasp）。
(G-H) USB抓取-插入任务：策略能够适应外部干扰和次优抓取情况，并通过释放-重新抓取（regrasp）物体来完成任务。

4.5. 额外基线对比

为了验证我们方法中的设计选择是否有效，我们在三个具有代表性的任务上进行了额外的对比实验：

汽车仪表板组装任务（双臂协调）
RAM插入任务（精确操控）
物体翻转任务（动态操控）

我们将我们的方法与多个最先进的方法进行对比，以突出其不同方面的性能。此外，我们还通过消融实验测试了不同数量的人类示范和修正数据，以验证人类干预对策略训练的重要性。为了评估我们的方法如何有效整合和利用人类示范，我们与以下基线方法进行了对比：

Residual RL (Johannink et al., 2019)
DAPG (Rajeswaran et al., 2018)
IBRL (Hu et al., 2024a)
Diffusion Policy (Chi et al., 2024)（用于检查任务难度是否仅由人类示范的多模态性引起）

这些全面的对比实验有助于验证我们方法在不同操控场景下的有效性，实验结果见表1。

强化学习从零开始（无示范或修正）失败
首先，我们注意到在没有任何示范或修正的情况下从零训练RL策略，在所有任务上都失败（0%成功率）。

为了验证在线人类修正的重要性，我们将SERL的离线示范数据量从20个增加到200个，但在没有在线修正的情况下，该方法在所有任务上的成功率远低于HIL-SERL，包括在复杂任务（如汽车仪表板组装）上的完全失败（0%成功率）。这一结果证明了在线人类修正在策略学习中的关键作用。

此外，这些实验也证实了离线示范数据和在线人类干预在指导策略学习方面的共同重要性，尤其是在那些需要持续反应行为的复杂操控任务中。

物体翻转任务：行为克隆（BC）的失败
在物体翻转任务中，我们使用20个和200个示范数据分别训练了行为克隆（BC）策略，但两种方法的结果几乎相同，成功率分别为47%和46%，即使示范数据增加了10倍，任务成功率依然没有提升。这表明仅仅模仿人类示范无法解决这一任务，即使它主要是开环任务。

HIL-SERL相比其他基线方法的优势
为了与上述基线方法进行对比，我们为每个任务收集了200个示范数据。需要注意的是，这一数据量远大于我们方法中通常使用的20-30个离线示范。具体来说，我们的方法与各基线的对比方式如下：

Residual RL 和 IBRL：先使用这200个示范数据训练行为克隆（BC）策略，然后将其作为输入传递给RL算法。
DAPG：将这200个示范数据存储在一个单独的缓冲区中，并对策略动作进行正则化，使其向这些示范靠近。

实验结果表明，HIL-SERL在所有任务上都大幅超越了这些基线方法（见表1）。

对这些结果的解释
Residual RL 依赖于预训练的BC策略来辅助RL学习。然而，这种方法在需要精确操控的任务（如汽车仪表板组装和RAM插入）中表现不佳，因为BC本身的性能不足，导致RL策略难以学习到良好的行为。

IBRL 的actor策略是BC策略和RL策略的混合，这使得其行为更像BC。因此，在BC表现不佳的任务中（如复杂操控任务），IBRL策略的学习效果同样较差。

DAPG 直接对策略施加正则化，使其靠近示范数据，因此它的最终性能与BC策略相似，在需要更多反应性和复杂行为的任务上表现不佳，远不如HIL-SERL。

HIL-SERL的有效性来源
HIL-SERL的优势主要来自于其异策略（off-policy）强化学习机制，它可以动态调整人类数据的权重，使其与当前策略优化目标保持一致。

与Johannink et al. (2019), Hu et al. (2024a), Rajeswaran et al. (2018)不同的是，我们的方法不依赖高质量的人类示范，而是能够在训练早期高效利用人类数据，随后自主探索，超越人类水平的性能。

关键之处在于，我们的方法不会被人类示范的局限性所束缚，而是在模仿学习的基础上，自主探索并发现更优的策略，从而在各类任务上实现卓越的表现。

与Diffusion Policy的对比
我们使用200个示范数据训练了Diffusion Policy (Chi et al., 2024)，远多于HIL-SERL在离线缓冲区中使用的20个示范数据。实验参数（如观测和动作分块长度、应用的动作序列长度）均采用最优设定，结果如下：

RAM插入任务：成功率27%
汽车仪表板组装任务：成功率28%
物体翻转任务：成功率56%

Diffusion Policy的表现远低于HIL-SERL，甚至低于HG-DAgger基线。这一结果并不意外，因为Diffusion Policy的主要优势在于学习更具表现力（expressive）的策略分布，从而精准记忆机器人运动轨迹。然而，这些任务需要“闭环”反应行为（例如视觉伺服来修正运动误差），Diffusion Policy在这些任务上没有显著优势。

因此，尽管Diffusion Policy在学习多模态运动分布方面表现良好，但在需要实时调整的任务中，HIL-SERL仍然具有更强的适应能力和更高的成功率。

5. 结果分析

为了更深入地了解我们的结果，我们对学习到的策略进行了详细分析。
这项分析关注两个关键方面：可靠性和学习到的行为。我们研究为什么学习到的策略能够在各种任务中始终如一地实现高成功率，并探讨哪些因素促成了它们的鲁棒性。此外，我们深入分析了策略所学习到的行为特性，特别是反应性（reactive）策略和预测性（predictive）策略之间的区别。这一全面的分析旨在揭示我们方法在解决复杂操控任务中的高效性背后的核心机制。

5.1 学习到的策略的可靠性

HIL-SERL表现的一个关键特点是其高可靠性，在所有任务中均实现了100%的成功率。我们认为，这种可靠性来源于强化学习（RL）的内在能力，即通过策略采样进行自我修正，使得智能体能够通过学习成功与失败经验不断改进。相比之下，模仿学习（包括交互式方法）缺乏这种自我修正机制，因此即便在相同数据量的情况下，也很难达到相同的性能。

虽然已有理论工作研究了Q学习的收敛性（Papavassiliou和Russell, 1999；Bhandari等, 2018；Jin等, 2020；Yang和Wang, 2019），我们的分析更注重提供对训练动态的直观理解。

为了说明这一点，我们分析了RAM插入任务，这一任务需要精确操控，并且由于其在X和Y方向上的对称性随机化特性，便于可视化。我们基于末端执行器的Y和Z位置绘制了不同时期策略检查点的状态访问热图，如图6所示。在策略学习过程中，我们观察到从初始状态到目标位置逐渐形成了一个漏斗状路径。随着空白区域被填满，这个漏斗形状变得更加清晰，并在接近目标时逐渐收窄，这表明策略的信心和精度提高。随着时间的推移，访问的状态逐渐集中在更有可能成功的区域。

接下来，我们引入了“关键状态”（critical states）的概念，定义为Q函数方差较大的状态。我们通过以下公式计算这些状态的Q函数方差：

$\text{Var}[\mathcal{Q}(s,a)] = \mathbb{E}_{\epsilon\sim\mathcal{U}[-c,c]}\left[\left(\mathcal{Q}(s,a+\epsilon) - \mathbb{E}_{\epsilon\sim\mathcal{U}[-c,c]}[\mathcal{Q}(s,a+\epsilon)]\right)^2\right].\tag{4}$

对于每个数据点及其对应的策略检查点，我们在每个状态下为动作添加来自 $[- 0.2, 0.2]$ 的均匀随机噪声（归一化为 $[- 1, 1]$ ），并使用蒙特卡罗采样（100次样本）计算Q函数方差。方差较大表明该状态对策略的成功至关重要，因为采取不同动作会导致显著不同（通常更小）的Q值。

图6同时显示了不同状态下的Q值及其方差的热图。这些图清楚地表明，策略正在形成一个“漏斗”，最常访问的状态获得了更高的Q值和更大的Q值方差。这表明策略正在通过动态规划增强关键区域的鲁棒性，有效地将重要状态通过高Q值的动作连接起来。

在这里插入图片描述
图6：策略训练动态的可视化
(A) HIL-SERL训练期间的状态访问热图：策略逐渐形成“漏斗”形状，访问更加集中于示范和修正周围的区域，显示出这些区域的鲁棒性增强。
(B) 训练期间的Q值方差散点图：漏斗内的状态显示出更高的Q值方差，这表明策略对能够导致成功结果的动作信心逐步增强。
(C) 训练期间的Q值散点图：具有较高Q值方差的关键状态（critical states）同时也伴随着更高的Q值。
(D) HG-DAgger训练期间的状态访问热图：漏斗形状不够明显，访问密度的分布更加分散。

相比之下，在相同任务中，HG-DAgger的状态访问计数热图（图6的第四行）显示了一个稀疏得多的分布。漏斗形状不够明显，访问的状态更为分散，与强化学习（RL）案例相比，状态访问更接近均匀分布。这是因为RL能够自主探索并使用任务奖励驱动的动态规划，而DAgger只能围绕当前策略进行探索。因此，为了达到类似的性能，DAgger可能需要显著更多的示范和修正，以及人类操作员的高度关注以确保数据质量。

这种漏斗内的稳定化行为在基于状态的灵巧操控和运动规划中已有研究（Burridge等, 1999；Tedrake等, 2010）。然而，我们的方法有所不同，我们直接利用感知输入并通过强化学习的探索自主形成漏斗。在最优控制中，一个类似的概念是开发围绕标称轨迹（nominal trajectories）通过局部反馈稳定的控制器（Astrom和Murray, 2008）。在我们的案例中，示范和修正可以被视为“标称轨迹”，而强化学习方法则围绕这些轨迹开发出用于稳定的漏斗。

5.2. 反应式策略和预测式策略

为了解决大多数高精度操控任务，我们需要一个闭环反应式策略，该策略能够快速响应即时的感官反馈，从而实现实时的精确调整。而对于动态操控任务（如Jenga积木抽取和物体翻转任务），则更需要采用开环预测式策略，该策略能够提前规划并始终如一地执行动作。为探究这一点，我们选择了两个需要这两种不同策略的代表性任务——Jenga积木抽取任务和RAM插入任务进行分析。

为了直观展示这两种策略类型的差异，我们绘制了两个任务中训练后的高斯策略所计算的动作，如图7所示。

对于两个任务，我们分析了三个成功轨迹，并绘制了策略计算的标准差和均值随时间的变化图。从这些图中可以观察到，尽管均值动作在两种情况下都涵盖了较大的值域，但标准差揭示了截然不同的策略行为模式：

Jenga积木抽取任务
- 标准差始终保持较低值（接近0），这表明该策略具有高度的信心和一致性，非常适合需要开环行为的任务。
- 类似于网球运动员培养的一种反射动作，策略学习到执行一个精确的、预先计划的运动。
- 通过与环境的交互，策略优化了该动作以最小化预测误差，从而实现了一致的执行效果。
RAM插入任务
- 标准差在初期较高（大约0.6），反映了策略在接近目标初期的不确定性。
- 然而，标准差随着时间迅速下降，表明策略从初期的粗略接近动作逐步转变为在靠近目标时更精确的运动。
- 由于任务对精度的高要求，策略必须具有能够在各种情况下进行错误修正的能力，而非依赖长时间的预测控制。

这种反应式行为在复杂操控任务（如仪表板装配任务或正时皮带安装任务）中更加明显。在这些任务中，策略必须根据传感器反馈不断调整动作，通常需要多次尝试才能完成任务，例如断开接触并重新接近目标，如图7所示。在这些场景中，较高的方差表明策略已准备好迅速对变化的条件作出反应。

在这里插入图片描述 图7：反应式行为与预测式行为对比

(A-D) 仪表板装配任务中的反应式行为序列：

策略在接触卡住后，快速抬起双臂以断开接触；
随后在接近目标时重新建立接触；
最终成功完成插入任务。

(E) RAM插入任务中训练后的高斯策略的方差图：

显示了三条轨迹。初始阶段的方差较高，但随着接近目标位置迅速下降。

(F) RAM插入任务中训练后的高斯策略的均值图：

值域在 $- 1$ 至 $1$ 之间变化。

(G) Jenga积木抽取任务中方差图：

方差始终保持较低（接近 $0$ ），表明策略执行稳定，为典型的开环行为。

(H) Jenga积木抽取任务中均值图：

值域在 $- 1$ 至 $1$ 之间，展示了三条轨迹的一致行为。

值得注意的是，这种反应式行为是通过智能体与环境的交互所获得的。换句话说，智能体“免费”地发展出了这种行为——我们并未明确地为特定的动态行为建立问题模型，而是通过持续的交互，这种期望的反应自然作为解决方案的一部分涌现出来。

此前的研究（Marcucci等, 2017；Hogan和Rodriguez, 2016；Aceituno-Cabezas和Rodriguez, 2020）尝试将这些接触密集型操控问题建模为混合整数规划问题，以解决由此产生的混合系统。这些方法使得策略能够规划不同的接触模式及其相应的动作。然而，随着规划时间范围的增加，这些方法很快变得在计算上难以承受，因为可能的接触模式数量随着规划时间范围的长度呈指数增长。此外，这些方法还依赖于准确的状态估计器，而对于许多真实世界任务来说，这些估计器并非总是可用。

相比之下，我们的方法直接利用感知来学习接触时的反应行为。通过交互，策略编码了解决方案所需的基本动态特性，而不是将这些动态特性视为问题建模的一部分。此前的方法则将复杂或不可处理的动态特性整合到问题建模中，从而使得这些解决方案更难推导且可扩展性较差。

总体而言，我们的方法展示了在统一算法框架内学习这些不同类型策略的灵活性。通过与环境的交互并观察其动作的结果，该方法能够适应每个任务的特定需求。这种适应能力使得系统能够有效应对需要多样化行为的任务，涵盖了广泛的操控挑战。

6. 讨论

本文的研究结果显著推进了机器人操控领域的现有技术水平。我们的研究表明，通过恰当的设计选择，无模型强化学习（model-free RL）确实能够利用感知输入有效解决各种复杂的操控任务，直接在真实环境中以可接受的时间范围内完成训练。通过该方法训练的策略表现卓越，几乎达到完美的成功率，大幅超过模仿学习等替代方法，并且循环时间也显著更短。

不仅仅是实验结果，本研究中提出的方法还可能产生更广泛的影响。它可以作为一个通用框架，用于高性能地学习和适应多样化的操控技能。这对于高混合低批量（High-Mix Low-Volume, HMLV）制造或“按订单生产”（make-to-order production）尤其具有价值（Jina等, 1997；Shah和Ward, 2003；Gan等, 2023）。这种生产方式在电子、半导体、汽车和航空航天等主要行业中具有重要潜力，因为这些行业需要更短的产品生命周期、定制化、敏捷性和灵活性。

我们也发现了一些未来研究的潜在机会：

生成高质量数据训练机器人基础模型
我们的方法可以作为一种有效工具，用于生成高质量数据来训练机器人基础模型（Brohan等, 2023b;a；Collaboration等, 2024；Team等, 2024；Kim等, 2024）。由于每个任务需要的训练时间相对较短，且训练过程主要是自主完成的，因此这一框架可以被用于开发多种技能。随后，通过执行收敛的策略收集数据，这些数据可以被提炼到通用模型中。
减少从零开始训练的时间
虽然目前的训练时间相对较短，但每个任务仍然需要从零开始训练。我们可以通过预训练一个值函数进一步缩短时间，这个值函数能够封装解决不同任务和机器人形式的通用操控能力。然后，这个预训练的值函数可以被快速微调以应对特定任务。

我们也注意到我们方法的某些局限性：

长时间跨度任务的扩展性问题
虽然我们成功解决了多种具有挑战性的任务，但尚不确定此方法是否能扩展到时间跨度显著更长的任务，在这些任务中样本复杂性问题将变得更加突出。然而，通过改进预训练技术或采用自动将长时间任务分解为一系列短子任务的方法（如使用视觉语言模型），这一挑战可能得以缓解。
未在实验中广泛随机化
我们的实验未进行广泛的随机化测试，也未验证该方法在非结构化环境中的泛化能力。本文的主要目标是证明该方法能够以高性能的方式通用性地学习广泛的操控技能。我们认为，随机化问题可以通过延长策略训练时间并引入所需的随机化水平（如Luo等, 2021）加以解决。此外，泛化问题可能通过引入基于大规模多样化数据集预训练的视觉基础模型得到解决。

我们希望本研究能够为强化学习在解决机器人操控问题中的应用铺平道路，实现高性能，并最终将其部署到真实世界中。