【论文阅读与翻译】Autonomous Reinforcement Learning Formalism and Benchmarking Networks

0. 摘要
1. 前言
2. 相关工作
3. 预备知识
4. 自主强化学习（ARL）
5. 自主强化学习环境（EARL）
- 5.1. 基准设计因素
- 5.2. 环境说明
6. 对标与分析
7. 结论

0. 摘要

强化学习（RL）为通过试错进行学习提供了一个自然的框架，这很吸引人，因为它的简单性和有效性，也因为它与人类和动物通过经验获得技能的方式相似。然而，现实世界的具身学习，例如人类和动物进行的学习，位于一个连续的、非情节的世界中，而强化学习中的常见基准任务是偶发性的，环境在试验之间重置，为智能体提供多次尝试。当尝试采用为情节模拟环境开发的强化学习算法并在真实世界平台（如机器人）上运行它们时，这种差异带来了重大挑战。在本文中，我们旨在通过制定自主强化学习（ARL）的框架来解决这种差异：强化学习，其中智能体不仅通过自己的经验学习，而且还与缺乏人类监督以在试验之间重置。我们围绕这个框架引入了一个模拟基准EARL(代码详见文章注释)，其中包含一组多样化和具有挑战性的模拟任务，反映了当只能假设对外部干预的最小依赖时，学习引入的障碍。我们表明，随着干预最小化，情景强化学习的标准方法和现有方法难以实现，这强调了开发强化学习新算法的必要性，更加注重自主性。

1. 前言

强化学习的吸引力之一是，它提供了一个自然主义的解释，说明复杂的行为如何从反复试验中自主出现，类似于人类和动物如何通过现实世界的经验获得技能。然而，现实世界的学习位于一个连续的、非情节的世界中，而 RL 中的基准测试通常假设访问预言机重置机制，该机制为智能体提供了进行多次尝试的能力。这给尝试在需要昂贵的人为干预或手动设置的环境中部署RL算法带来了重大挑战。比如一个机器人学习清洁和整理房屋的例子。理想情况下，我们希望机器人能够自主探索房屋，了解清洁工具，在整个过程中自行确定良好的策略，并在房屋发生变化时进行调整。这种在现实世界中机器人学习的愿景，连续的，非情节的方式与文献中强化学习的典型实验形成鲜明对比，其中智能体必须通过人工努力或工程始终重置为一组初始条件，以便他们可以再次尝试。自主，特别是对于强化学习等数据饥渴的方法，是广泛适用性的推动因素，但很少是明确的考虑因素。在这项工作中，我们建议通过提供一种形式主义和一组基准任务来弥合这一特定差距，这些任务考虑了位于非情节环境中的智能体所面临的挑战，而不是将它们视为被预言机重置抽象出来。

我们的具体目标是更加关注在更接近自主现实世界机器人部署的假设下开发算法。虽然情节设置自然地捕捉了完成“任务”的概念，但它隐藏了假设预言机重置的成本，当删除后，可能会导致在情节设置中开发的算法表现不佳（第 6.1 节）。此外，虽然之前的工作已经检查了诸如没有重置的RL等设置，生态RL或RL在非平稳性中，在孤立的场景中，这些设置在现有基准中没有得到很好的体现。因此，没有一个一致的正式框架来评估强化学习的自主性，与关于强化学习的大量文献相比，这方面的工作有限。通过建立这个框架和基准，我们的目标是巩固在RL中具有更大自主性的算法的重要性。

在我们为这种类型的自主强化学习制定一套基准之前，我们首先正式定义我们正在解决的问题。正如我们将在第4节中讨论的那样，我们可以制定两个不同的问题设置，其中自主学习提出了重大挑战。第一种设置是智能体首先在非情节环境中训练，然后“部署”到情节测试环境中的设置。在这种情况下，在先前关于“无重置”学习的著作中最常研究，目标是在一段时间的非情节训练后学习最好的情节政策。例如，在家庭清洁机器人的情况下，这将对应于评估其清洁凌乱房屋的能力。第二种设置是持续学习设置：与第一个设置一样，目标是在非情节环境中学习，但没有明显的“部署”阶段，相反，智能体必须在训练过程中尽量减少遗憾。在家庭清洁机器人的先前设置中，这将评估家庭的持续清洁度。我们在自主RL问题定义中讨论了这些设置如何带来许多独特的挑战，例如具有挑战性的探索。

我们工作的主要贡献包括自主强化学习（ARL）的基准，以及两种不同ARL设置的正式定义。我们的基准测试结合了以前提出的环境中的组件，重新制定学习任务以反映 ARL 约束，例如缺少明确可用的重置。我们对将ARL 的形式与标准 RL 问题陈述联系起来，提供了一个具体和通用的定义，并提供了许多实例来描述 ARL 的常见成分（例如不可逆状态、干预和其他组件）如何适应通用框架。此外，我们还在基准测试中评估了一系列先前提出的算法，重点关注明确解决无重置学习和其他相关场景的方法。我们发现，标准RL方法和为无重置学习设计的方法都难以解决基准测试中的问题，并且经常卡在状态空间的某些部分，这强调了对可以更大自主学习的算法的需求，并提出了开发此类方法的途径。

2. 相关工作

先前的工作已经提出了许多强化学习的基准，这些基准通常是明确的情节，或由玩家死亡或完成游戏后隐含情节的游戏组成。此外，在情景设置中提出了RL基准，用于研究许多正交问题，例如多任务学习、顺序任务学习、泛化和多智能体学习。这些基准与我们自己的基准不同，因为我们建议研究自主的挑战。在最近的基准测试中，最接近我们自己的基准测试是果冻豆世界，它由一组程序生成的网格世界任务组成。虽然这个基准也考虑了非情节设置，但我们的工作受到机器人自主学习挑战的启发，因此考虑了一系列操作和运动任务。此外，我们的工作旨在建立一个概念框架，根据持久自主的要求评估先前的算法。

使具身智能体能够以最少的干预不断学习是强化学习研究的几个子主题所共有的动机。我们在工作中研究的环境与持续和终身学习的先前工作在概念上相似。在强化学习的背景下，这项工作研究了顺序 MDP 中的情景学习问题，其中主要目标是非平稳动力学中的前向/后向迁移或学习。相比之下，我们工作的重点是在非情节环境中学习，而连续RL中的文献则假设情节设置。正如我们将要讨论的，即使在任务分配和动态是静止的的情况下，在没有访问oracle重置的情况下自主学习也是一个难题。同样，无监督的RL还可以在没有奖励的情况下获得技能，从而减少设计奖励函数所需的人为干预。这些作品与我们的提案相辅相成，并形成了有趣的未来工作。

以前的工作已经研究了无复位RL，重点是安全性，现实世界中的自动化和无人值守学习、技能发现，并提供课程。学习无复位行为的策略包括直接学习向后复位控制器，学习一组可以作为近似复位的辅助任务，或使用新颖性寻求复位控制器。作为对这些文献的补充，我们的目标是开发一套基准和一个框架，允许以统一的方式研究这类算法。我们的工作不是提出新的算法，而是专注于开发一组统一的任务，这些任务强调并允许我们通过自主的视角研究算法。

在这里插入图片描述

图 1：自主强化学习中的两种评估方案。首先是部署设置（顶行，（1）），我们有兴趣在训练阶段获取策略，π，当从 s0 ∼ ρ 部署时表现良好。其次，持续设置（底行，（2）），其中地板清洁机器人的任务是保持地板清洁，并且仅根据其在智能体生命周期内的累积性能（公式2）进行评估。

3. 预备知识

考虑马尔可夫决策过程（MDP）M ≡（S，A，p，r，ρ，γ）。这里，S 表示状态空间，A 表示动作空间，p ： S × A × S → R≥0 表示转换动态，r ： S × A → R 表示奖励函数，ρ ： S → R≥0 表示初始状态分布，γ ∈ [0， 1）表示折扣因子。强化学习的目标是最大化 J（π） = E[ P∞ t=0 γ t r（st， at）] 相对于策略π，其中 s0 ∼ ρ（·），在 ∼ π（· | st）和 st+1 ∼ p（· | st， at）。重要的是，RL 框架假设能够任意对 s0 ∼ ρ 进行采样。强化学习算法的典型实现执行数千或数百万次这样的试验，隐含地要求环境提供一种机制，以便为每个试验“重置”为状态 s0 ∼ ρ。

4. 自主强化学习（ARL）

在本节中，我们开发了一个自主强化学习（ARL）框架，在没有外在干预的环境中正式确定强化学习。我们首先定义了一个非情节训练环境，在第 4.1 节中，智能体可以自主地与其环境交互，建立在标准强化学习的形式主义之上。我们介绍了两个不同的评估设置，如图 1 所示：第 4.1.1 节讨论了在训练后将在测试环境中部署智能体的部署设置，目标是最大限度地提高这种“部署”的性能。第 4.1.2 节讨论了持续设置，其中智能体没有单独的部署阶段，旨在最大化其生命周期中累积的奖励。在最一般的形式中，后者与标准RL非常接近，而前者可以解释为一种迁移学习。正如我们将在 4.2 节中讨论的那样，可以实例化这个通用框架，以便对于底层 MDP 的不同选择，我们可以模拟不同的现实自主 RL 场景，例如机器人必须学会在试验或具有不可逆动力学的设置之间重置自己的设置。最后，第4.3节考虑了自主RL的算法设计，讨论了自主操作中面临的挑战，同时也对比了评估协议。

4.1. 基本设置

我们的目标是正式化自主强化学习的问题设置，以封装真实的自主学习场景。我们根据训练 MDP MT ≡ （S， A， p， r， ρ）来定义设置，其中环境初始化为 s0 ∼ ρ，然后智能体从那时起自主地与环境交互。请注意，我们的设置中缺少情节重置不仅偏离了标准 RL 设置，还偏离了其他持续强化学习设置，其中在任务之间提供重置。符号保留了第 3 节中的含义。在此设置中，学习算法 A 可以定义为函数 A ： {si ， ai ， si+1， ri} t−1 i=0 → （at， πt），它将环境中收集的迁移映射到环境中应用的时间 t（例如，重放缓冲区）到a处的（潜在的探索）操作及其对最佳策略 πt 的最佳猜测： S × A → R≥0 用于在时间 t 进行评估。我们注意到，奖励函数的假设隐含地需要人类工程学，但原则上可以通过从数据中学习奖励函数的方法来放宽。此外，我们注意到 at 不需要来自 πt，这已经隐含在大多数强化学习算法中：Q 学习方法，如 DQN、DDPG使用贪婪策略作为探索策略之上的贪婪策略进行评估。然而，我们的设置需要更协调一致的探索，探索行动可能来自完全不同的政策。请注意，初始状态分布只采样一次（s0 ∼ ρ）以开始训练，然后算法 A 运行直到 t → ∞，生成序列 s0、a0、s1、a1、. .在 MDP MT 中。这是与第 3 节中描述的情节设置相比的主要区别，后者可以重复采样初始状态分布。

4.1.1 自主强化学习部署设置

考虑机器人必须学习如何关门的问题。传统的强化学习算法需要多次试验，反复需要干预才能在试验之间打开大门。我们希望的是机器人能自主地与门互动，如果需要练习关门，首先需要先学会打开门。训练过程的输出策略在其部署设置中进行评估，在本例中为评估其关闭门的能力。正式地，部署设置中策略π的评估目标 JD 可以写为：
在这里插入图片描述

评估目标JD（π）与MDP M（部署环境）第3节中定义的目标相同。策略评估是“假设的”，用于评估策略的环境推出未用于训练。即使评估轨迹是从初始状态推出的，也没有对训练进行干预。具体来说，此设置中的算法目标可以表示为 minA D（A）。本质上，自主算法 A 的策略输出 πt 应尽快与预言机部署性能（即 JD（π ∗））匹配。注意 JD（π ∗）是一个常数，在比较两种算法时可以忽略，即我们只需要知道实践中给定算法的 JD（πt）。

4.1.2 自主强化学习连续设置

对于某些应用程序，智能体的体验不能分为训练和部署阶段。智能体可能必须在它们被“部署”到的环境中学习和改进，因此需要评估这些算法在智能体生命周期内的性能。例如，负责保持家庭清洁的机器人在适应部署家庭时学习和改进工作。为此，请考虑以下定义：
在这里插入图片描述

这里，at 是算法 A 根据环境中收集的转换直到时间 t 采取的操作，在奖励 r 下测量性能。优化目标可以表示为 maxA C（A）。请注意，πt 不用于计算 C（A）。在实践中，这相当于衡量智能体在其生命周期内在 MDP MT 中收集的奖励。

4.2. 如何让具体的ARL问题适应该框架

该框架可以轻松调整，以模拟可能遇到的自主强化学习场景。

间歇性干预。默认情况下，智能体通过 MDP MT 中的完全自主交互收集环境中的经验。然而，我们可以用定义为p ̃（·| s， a） = （1 − ）p（· | s， a） + ρ（·））来模拟偶尔的干预，其中下一个状态以1 −的概率从环境动力学中采样，或者通过干预某些∈的初始状态分布的概率采样[0，1]。低表示通过MDP MT训练进行的非常偶然的干预。事实上，第 3 节中描述的框架，主要由强化学习算法假设，可以理解为具有很大的. 为了情境化，智能体应该期望在环境中的1/步骤后得到干预。当前的情节设置通常每 100 到 1000 步提供一次环境重置，对应于∈（1e-3、1e-2），自主操作时间通常为几秒钟到几分钟，具体取决于环境。虽然完全自主是可取的（即 = 0），但每隔几小时到几天进行一次干预可能是合理的安排，这对应于每 100，000 到 1，000，000 步或∈重置一次环境（1e-6、1e-5）。我们在 6.1 节中评估了为情节强化学习设计的算法对复位频率的依赖性。

不可逆状态。开发自主算法的一个重要考虑因素是底层MDP M的“可逆性”.非正式地，如果智能体可以逆转环境中的任何转换，则保证智能体不会卡在环境中。例如，可以设置静态机器人手臂，以便始终存在打开或关闭门的动作序列。但是，机器人手臂可以将物体推到其够不到的地方，因此任何动作序列都无法检索它。从形式上讲，我们要求MDP是遍历的，以便它们被认为是可逆的。在非遍历MDP的情况下，我们调整了ARL框架，使智能体能够请求外在干预，我们在附录A中对此进行了讨论。

4.3. 自主强化学习形式主义的讨论

ARL 框架为自主RL 算法提供了两种评估协议。算法通常只能优化两个评估指标中的一个。设计人员应针对哪种评估协议进行优化？从某种意义上说，对两种评估协议的需求源于特定于任务的约束，根据现实世界训练成本和干预成本之间的具体权衡，有时可以放宽这些约束本身。持续策略评估代表了在将持续操作智能体部署到动态环境中时应努力优化的预言机指标。部署政策评价的需要源于两个隐含的实际制约因素：（a）需要大量的试验来解决预期的任务;（b）缺乏干预措施来实现这些试验。如果其中任何一个都可以轻松放宽，那么可以考虑优化以继续进行政策评估。例如，如果智能体可以在一些试验中学习，因为它经过元训练以快速适应，那么为这些试验提供一些干预措施可能是合理的。同样，如果在部署期间很容易获得干预措施而不会产生大量的人力成本，则可能是通过脚本化行为或通过部署设置启用（例如，在设施中分类垃圾），则智能体可以在部署时反复尝试任务并学习。但是，如果在部署时不能放松这些约束，则应考虑针对部署策略评估进行优化，因为这会激励智能体通过设置自己的实践问题来学习目标行为。

5. 自主强化学习环境（EARL）

在本节中，我们将介绍我们提议的基准测试“自主强化学习环境”（EARL）中的一组环境。我们首先讨论设计标准中的因素，并描述每个环境如何适应我们的整体基准理念，然后再介绍结果和分析。有关每个环境的详细说明，请参阅附录 A。

5.1. 基准设计因素

具有代表性的自主设置。我们包括一系列广泛的任务，这些任务反映了智能体在现实世界中可能遇到的自主学习场景的类型。这包括操作和运动中的不同问题，以及具有多个对象交互的任务，对于这些任务，仪器重置将具有挑战性。我们还确保ARL的持续评估协议和部署评估协议都是现实的代表性评估。

定向探索。在自主设置中，可能需要再次练习任务，可能来自不同的初始状态，这导致智能体需要学习丰富的重置行为。例如，在机器人学习与厨房中的多个对象交互的实例中，机器人还必须学习隐式或显式地组合不同的重置行为。

奖励和示范。我们基准测试的最后一个设计方面是奖励函数的选择。在某些领域（例如，运动）中，密集奖励是自然的选择，但在现实世界的操作领域中设计和提供密集奖励可能非常具有挑战性。在这种情况下，稀疏奖励更容易指定，但这通常使探索变得不切实际。因此，先前的工作经常利用演示（例如，（Gupta等人，2019）），特别是在现实世界的实验中。为了反映 RL 在现实世界操作设置中的实际用法，我们提供了少量稀疏奖励操作任务的演示。

5.2. 环境说明

桌面组织（TO）。桌面组织任务是由Sharma等人提出的诊断对象操作环境。（2021）. 该智能体由一个建模为点质量的夹持器组成，它可以抓取靠近它的物体。智能体的目标是将杯子带到目标过山车指定的四个不同位置。智能体的奖励函数是将杯子放置在目标位置时的稀疏指示器函数。向智能体提供有限的演示。
在这里插入图片描述

索耶门（SD）。来自 MetaWorld 基准测试的 Sawyer-Door 任务由一个 Sawyer机器人手臂组成，其目标是在门处于打开位置时关闭门。任务奖励是基于门的角度的稀疏指标函数。反复练习这个任务隐含地要求智能体学会打开门。提供有限的开门和关门演示。
在这里插入图片描述

索耶钉（SP）。Sawyer-Peg任务由一个Sawyer机器人组成，该机器人需要将钉子插入设计的目标位置。任务奖励是一个稀疏指示器函数，用于确定挂钩何时位于目标位置。在部署设置中，智能体必须学会从表开始插入挂钩。提供了插入和移除钉子的有限演示。
在这里插入图片描述

弗兰卡厨房（FK）。Franka-Kitchen（Gupta等人，2019）是一个领域，其中需要位于厨房环境中的9-DoF机器人来解决由复合对象交互组成的任务。环境由微波炉、铰链柜、燃烧器和滑动柜组成。一个示例任务是打开微波炉、门和锅炉。该领域为 ARL 带来了许多不同的挑战。首先，每项任务的复合性质导致一个具有挑战性的长视界问题，这带来了勘探和信用分配的挑战。其次，虽然泛化在求解环境中很重要，但考虑到任务的组成性质，组合重置行为同样重要。
在这里插入图片描述

灯泡抓取（DL）。DHand-Lightbulb环境由一个22 DoF 4指的手组成，安装在一个6 DoF Sawyer机器人上。该环境基于Gupta等人（2021）最初提出的环境。该域中的任务是让机器人抓取将灯泡拾取到特定位置。高维动作空间使任务极具挑战性。在部署设置中，灯泡可以在表上的任何位置初始化，从而在广泛的初始状态分布上测试智能体。
在这里插入图片描述

迷你笔（MP）。最后，Minitaur-Pen任务由一个8-DoF Minitaur机器人组成，该机器人被限制在笔环境中。智能体的目标是导航到笔中的一组目标位置。该任务旨在模仿让机器人学习以自主方式在封闭环境中导航的设置。此任务与其他任务不同，因为它是运动任务，而不是其他任务是操作任务。
在这里插入图片描述

6. 对标与分析

本节的目的是了解自主强化学习的挑战，并评估当前自主强化算法的性能和缺点。在第6.1节中，我们首先评估ARL设置中的标准情节RL算法，因为它们需要以更高的自主性运行，强调需要更加关注RL算法的自主性。然后，我们在 6.2 节中评估 EARL 上的先前自主学习算法。虽然这些算法确实改进了偶发性强化学习方法，但与预言机重置提供的方法相比，它们未能在更具挑战性的任务上取得进展，留下了很大的改进差距。最后，在第 6.3 节中，我们研究了现有算法的学习，为它们的性能不足提供了假设。我们还发现，当自主RL确实成功时，它往往会找到更强大的策略，这表明自主和稳健性之间存在有趣的联系。

6.1. 从标准强化学习到自主强化学习

在这里插入图片描述

图 2：具有不同自主级别的标准 RL 的性能，范围从每 1000 步提供的复位到 200000 步。由于环境重置变得不频繁，性能会大幅下降。

在本节中，我们将评估标准RL方法，以了解当它们被应用于ARL问题时，它们的性能如何变化。为了创建一个连续统一体，我们将改变“自主”级别（即重置频率），对应于第 4.2 节中定义的“自主”。仅对于这些实验，我们使用DeepMind Control Suite中的简单猎豹和鱼类环境。我们使用软演员评论家（SAC）作为代表性的标准RL算法。我们考虑不同的训练环境，重置之间的步骤数量不断增加，范围从 1000 到 200， 000 步。图 2 显示了学习的策略在训练过程中的性能，其中通过运行 1000 个步骤的策略来衡量回报。猎豹环境是无限地平线的跑步环境，所以改变训练视野理论上应该不会影响性能。然而，我们发现随着训练视野的增加，性能会急剧下降，如图 2（左）所示。我们将这个问题归因于函数近似和时间差分学习的组合。随着有效自举长度的增加，增加发作长度会破坏学习的稳定性：Q 值函数 Qπ（s0， a0）在 Qπ （s1， a1）的值上自举，Qπ （s2， a2）上自举，依此类推，直到 Qπ （s100，000， a100，000）。为了打破这个链式法则，我们考虑一个有偏差的TD更新：如果t不是1000的倍数，则Qπ（st，at）←r（st，at）+γQπ（st+1，at+1），反之Qπ (st, at) ← r(st, at)。这是受到SAC的实际实现的启发（Haarnoja等人，2018b），其中Q值函数回归到r（s，a）以进行终端转换以稳定训练。这有效地解决了猎豹的问题，如图 2（中间）所示。然而，这种解决方案一般不会转化，正如在鱼类环境中观察到的那样，随着训练范围的增加，性能继续下降，如图2（右）所示。猎豹和鱼之间的主要区别在于后者是一个达到目标的领域。猎豹可以在无限平面上继续改善步态而无需重置，而鱼需要撤消任务才能再次练习达到目标，从而产生一个不平凡的探索问题。

在这里插入图片描述

表 1：最终部署策略的平均回报。性能平均在 5 个随机种子上。报告均值和标准误差，表现最佳的条目以粗体显示。对于稀疏奖励域（TO、SD、SP），1.0 表示最高性能，0.0 表示最低性能。
在这里插入图片描述

表2：根据持续政策评估，在训练期间累积的平均奖励。性能平均在 5 个随机种子上。报告平均值和标准误差（括号），表现最佳的条目以粗体显示。

6.2. 评估：设置、指标、基线与结果

训练设置。每个算法 A 接收一组初始状态 s0 ∼ ρ，以及来自目标分布 g ∼ p（g）的一组目标。演示（如果有的话）也提供给A。我们将第4.2节中描述的间歇性干预情景作为基准。在实践中，我们在固定步数HT后重置智能体。HT 的值对于每个环境都是固定的，范围在 100， 000 - 400， 000 步之间。每个算法 A 都运行固定数量的步数 Hmax，之后训练终止。具体环境详情见附录A.4。

评估指标。对于已部署的策略评估，我们计算 D（A） = − PHmax t=0 JD（πt），忽略 JD（π ∗），因为它是所有算法的常数。策略评估 JD（πt）每 10000 个训练步骤进行一次，其中 JD（πt） = PHE t=0 r（st， at）是运行策略 πt 10 次后在 HE 步骤一集中累积的平均回报，每次试验从 s0 ∼ ρ 开始。这些推出仅用于评估，不会提供给算法。在实践中，我们绘制了JD（πt）与时间t的关系，因此最小化D（A）可以理解为最大化学习曲线下的面积，我们发现这更易于解释。给定有限的训练预算 Hmax，与 π ∗ 相比，策略 πt 可能相当欠佳。因此，我们还报告了最终策略的性能，即表 1 中的 JD（πHmax）。对于持续的政策评估C（A），我们计算平均奖励为r（h） = Ph t=0 r（st， at）/h。我们绘制了r（h）与h的关系，同时在表2中报告了r（Hmax）。与持续和已部署的政策评估相对应的评估曲线见附录A.6。

基线。我们评估前向后RL（FBRL）、扰动控制器（R3L）、价值加速持久 RL （VaPRL）、与仅使用第 6.1 节中讨论的有偏差的 TD 更新运行基本 RL 算法进行比较（na ̈ıve RL），最后是每个 HE 步骤提供重置的预言机（预言机 RL）（HT 通常比 HE 大三个数量级）。我们仅在演示可用时对VaPRL进行基准测试，根据Sharma等人（2021）中提出的算法。我们平均了 5 个随机种子中所有算法的性能。有关这些算法的更多详细信息，请参阅附录 A.3、A.5。

总体而言，我们在表 1 中看到，基于最终策略的部署性能，自主 RL 算法的性能大大低于 oracle RL，并且在索耶钉和弗兰卡厨房方面未能取得任何进展。值得注意的一个例外是未能在桌面组织和迷你笔上的R3L上取得任何进展，表现优于oracle RL。在自主RL算法中，VaPRL在给出演示时表现最好，而R3L在没有提供演示时在域上表现良好。尽管如此，这为未来评估这一基准的工作留下了很大的改进空间。更详细的学习曲线显示在第 A.6 节中。在持续设置中，我们发现 na ̈ıve RL 在某些域上表现良好（在 6 个域中的 2 个域上表现最好）。这并不奇怪，因为 näıve RL 被激励占据最终的“目标”位置，并在其生命周期中继续积累，而其他算法则被明确激励去探索。也许令人惊讶的是，我们发现锯木门上的VaPRL和dhand-lightbulb和minitaur上的R3L比na’ıve RL更好，这表明优化部署的性能也可以提高持续性能。总体而言，我们发现，持续环境中的绩效并不一定转化为已部署政策评估绩效的提高，这强调了这两种评估计划之间的差异。

6.3. 自主强化学习算法分析

在这里插入图片描述

图 3：比较访问的重置（蓝色）和未重置（棕色）的状态分布。热图可视化了预言机RL和FBRL的状态访问之间的差异，阈值以突出显示具有较大差异的状态。复位使智能体能够保持在初始状态分布和目标分布周围，而自主操作的智能体则偏得更远，这带来了探索挑战。

与预言机RL相比，自主RL算法的性能相对不佳的一个假设是，环境重置限制了智能体访问的状态分布接近初始状态和目标状态。当长时间自主操作时，智能体可能会远离目标状态，从而带来艰难的探索挑战。为了验证这一假设，我们比较了图 3 中使用 oracle RL（蓝色）和 FBRL（棕色）时的状态分布。我们可视化了用于桌面组织的抓手访问的（x， y）位置，锯木钉的钉子的（x， y）位置和迷你钢笔的 x， y 位置。如图所示，自主操作将夹具向桌面组织的角落倾斜，钉子卡在球门框周围，迷你车可以完全远离球门分布。然而，当自主算法能够解决任务时，学习的策略可以更加健壮，因为它们在训练期间面临着更严峻的探索挑战。我们在图 4 中对此进行了可视化，其中我们测试了 oracle RL、FBRL 和 VaPRL 在桌面组织上学习的最终策略，这些策略从统一的状态分布而不是默认的状态分布开始。我们观察到，VaPRL和FBRL学习的策略分别贬值了2%和14.3%，远小于oracle RL学习的策略折旧37.4%，这表明自主RL可以导致更稳健的策略。

在这里插入图片描述

图 4：从统一的初始状态分布开始评估策略。通过自主 RL（FBRL 和 VaPRL）学习的策略比在 oracle RL 中学习的策略对初始状态分布更可靠。

7. 结论

我们提出了自主强化学习的形式主义和基准，包括对先前算法状态的评估，明确强调自主性。我们提出了两种不同的评估设置，它们代表了自主学习的不同实际用例。我们实验的主要结论是，现有的算法在学习过程中需要自主性的场景中通常表现不佳。我们还发现，探索挑战虽然存在于情节环境中，但在自主环境中大大加剧。

虽然我们的工作主要集中在自主设置上，但在学习速度和人工干预成本之间可能存在特定于任务的权衡，并且提供一些人工监督以减少总训练时间确实可能是有益的。如何最好地提供这种监督（奖励和目标设定，演示，重置等），同时最大限度地减少人力成本，为未来的工作提供了许多有趣的方向。然而，我们认为自主学习算法还有很大的改进空间，我们的工作试图强调这样做的重要性和挑战。

另：附上原文链接： https://openreview.net/pdf?id=nkaba3ND7B5