论文翻译 —— Adversarial Imitation Learning with Trajectorial Augmentation and Correction


  • 摘要:深度模仿学习需要大量专家演示,而这些数据并不总是易于获得,尤其是对于复杂的任务就更难了。 克服有标记数据短缺的一种方法是 “数据增强”(data augmentation)。但是,由于控制任务具有时序性( sequential nature),不能直接应用一般的数据增强方法。在这项工作中,我们引入了一种新颖的增强方法,可以保证增强轨迹成功(即能完成任务)。为了实现这一点,我们引入了一个半监督校正网络,旨在纠正失真的专家动作。为了充分测试校正网络的能力,我们开发了一种对抗数据增强模仿学习架构,可以使用合成的专家数据训练模仿智能体。此外,我们引入了一个度量来衡量轨迹数据集的多样性。实验表明,我们的数据增强策略可以提高对抗模仿学习的准确性和收敛时间,同时保持生成轨迹和真实轨迹之间的多样性。

I. INTRODUCTION

  • 模仿学习 (IL) 利用专家示教样本来训练智能体处理各种复杂任务 [1]。从演示中学习的主要优点是受过训练的系统具有更 “自然” 的行为,且无需针对特定任务手工设计特征。与需要为每个任务精心设计奖励函数强化学习 (RL) [2] 策略相比,这尤其有利。为了将 RL 元素与监督学习相结合,生成对抗模仿学习 (GAIL) [3] 开发了一种对抗模仿架构,其中生成器与鉴别器相互竞争以匹配专家的分布。虽然GAIL取得了有希望的结果,但它仍然需要大量且多样的专家轨迹数据。(收集专家示范数据)这个过程通常具有挑战性,一方面数据记录设备、机器人域重定向等通常都会引入大量噪声[4],另一方面记录专家轨迹通常需要使用定制设备 [5],使得示教记录过程非常昂贵且耗时。难以收集示教数据最终成为大多数实际应用的主要瓶颈,特别是在使用了深度学习的情况下,这时通常需要大量示教数据 [6]

  • 在这项工作中,我们提出了一种新的策略,可以从几个示例中学习生成合成专家(synthetic experts)。我们的目标是减少输入噪声的影响,并在原始数据集大小有限的情况下泛化到不同的条件。与其他控制问题的数据增强方法相反 [7]、[8]、[9],我们设计了一个执行随机轨迹增强的系统。为了确保这种随机化的成功,我们引入了一种校正方法,旨在利用其对抗架构校正这些随机增强。具体地说,我们的随机增强策略可以生成潜在的无限个合成专家,并用它们训练模仿智能体。为了确保合成专家的有效性,我们的方法在每个轨迹的末尾使用了一个任务成功二分类过滤器(binary success filter)。虽然这些信息不是纯粹模仿的一部分,但它很容易获得。另外,我们在第 IV 节中的实验证明,仅靠这样这些信息不足以成功训练 RL 智能体

  • 数据增广通常用于计算机视觉任务 [10]、[11]、[12],(这些方法)对输入图像进行扭曲变形处理,通过施加相关扰动(例如平移、旋转)增大标记数据集。然而,控制任务中不能使用随机变形(random distortions)方法进行数据增广,因为这会极大地影响环境的状态。相反,这些方法通常用于增广单步动作 [7]、[8]、[9]。此外,对时序数据的失真扭曲操作会导致复合错误,从而扭曲最终结果。由于这些原因,简单地变形轨迹上的输入动作不能保证成功完成任务。这种效果体现在 图 1 中机器人开门任务示例中。可见,专家轨迹(顶行)被扰动的动作随机扭曲,导致智能体无法打开门(中行)。本文提出的方法允许我们对这个轨迹进行 “纠正” 以得到一条能成功完成任务的轨迹(底行)
    在这里插入图片描述

    • Fig.1. 我们提出的轨迹数据增广方法的示例。顶行:原始专家轨迹。中行:被噪声扭曲的专家轨迹。失真变形使得轨迹不成功。任务成功与否是不能保证的,因此我们称这个增广是未标记的。底部:我们的校正网络修改未标记的增广轨迹以产生与不同于专家的成功轨迹
  • 如上所述,轨迹增广过程中的噪音会影响专家示教,以至于增广后无法在 agent’s domain 中成功完成任务,无法使用。然而,这些序列仍然包含有用的信息,并且有可能通过对其行为进行小幅修正而取得成功。如图 1 所示,这种经修正的轨迹与失真增强的示教动作轨迹非常相似。因此,校正机制不仅可以在数据集收集完成后帮助增大数据集,还可能在获取示教数据的过程中增加数据集

  • 我们工作的主要贡献是提出了一个在轨迹上执行数据增广的系统,可以减少专家演示的数量并改善模仿学习效果。为了实现这一点,我们引入了一个半监督对抗框架来纠正扭曲的动作序列。此外,我们提出了一个监督学习系统,该系统通过使用潜在的无限数量的合成专家轨迹进行模仿学习。与使用固定标签数据集的标准监督方法相反,我们的模型利用校正网络生成合成专家。因此可以动态地创建专家,提高模仿的准确性和稳定性。我们还引入了一种测量轨迹数据集多样性的新方法,以确保生成的轨迹中的方差与真正的专家轨迹相当。为了测试校正策略校正变形序列、帮助模仿学习的能力,我们在各种环境中对比了数据增强策略与 SOAT 的 GAIL 和 RL 方法,测试涵盖了如 [5] 中所述的,有着真实人类专家的复杂任务环境。实验表明,这种架构可以提供比随机变形轨迹更成功的校正轨迹,并且可以提高现有技术的稳定性和收敛性。它似乎还保留了专家轨迹的大部分多样性而没有模式崩溃(mode collapsing),因此表明(生成的)随机动态专家可以提供更好的状态-动作空间表示。图 2 给出了我们框架的一般概述。
    在这里插入图片描述

    • Fig.2. 我们系统的流程图,它使用轨迹数据增强进行模仿学习。第 1 阶段通过纠正扭曲的轨迹实现数据增强,而第 2 阶段对增强的数据进行模仿学习

II. RELATED WORK

  • Generalisation in IL :和机器学习的许多其他领域一样,模仿学习的泛化性能广泛受益于深度学习 [1]、[3]、[13]、[14]、[15]、[16]、[17]。然而,由于深度学习是非线性的,它通常需要大量的训练数据才能成功work [10]、[11]

    • 其最著名的 IL 方法之一是行为克隆 (BC) [18],它易于训练,但存在级联错误,且难以推广到未见状态 [19]
    • 为了缓解这一问题,[3] 引入了一种称为生成对抗模仿学习 (GAIL) 的方法,该方法受生成对抗网络 (GAN) [20] 的启发,应用于控制任务。此方法中试图将 IL 与 RL [21]、[22] 结合起来,在无需进行RL中奖励函数设计这一艰巨的任务的情况下,努力寻找一个健壮的策略。然而,泛化问题仍然是 GANs [23] 的一个问题,由于控制问题中可用的专家数量有限,泛化问题在 GAIL 中更加严重(GAIL 无法泛化的原因之一是其轨迹多样性不如专家轨迹。[13] 和 [14] 都通过使用能够在轨迹之间进行插值的潜在空间来解决这个问题)
  • Few-shot IL and Semi-supervision:由于获得许多专家演示是困难的,有时甚至是不可能的,因此已经有很多将深度学习与少量专家 [24]、唯一专家 [25]、[26] 甚至无专家 [27], [28] 相结合的方法。

    • [25] 将 one-shot 学习与元学习 [29] 相结合,所以它仅使用与当前动作和任务相关的信息。[25] 侧重于根据任务的长度和阶段数来泛化,而 [26] 侧重于根据不同的设置进行泛化
    • 与我们的工作类似,[24] 使用了一个额外的网络,该网络使用噪声生成合成样本,应用于图像分类场景中。这一工作的目标与我们的不同,他们是为了改进分类器,而我们对生成的样本本身感兴趣
    • [30] 是在 RL 场景中与我们相关的另一项工作。在这项工作在对抗性架构中设计了一种 RL 自学方法,而我们的工作侧重于监督学习,特别是使用数据增强进行教学
    • 师生 (T/S) 网络也使用半监督设定,适用于带有噪声的标记数据或无标记数据 [6]。在最近的一项工作中,[31] 引入了一种学生队列架构。与我们的模型类似,它旨在匹配两个网络的输出分布,但其所有学生都执行相同的任务,这与我们的工作不同
    • 在校正噪声标签方面,[32] 使用了校正网络,但只是为了去除噪声,而我们的目标是在扰动后使轨迹能够成功完成任务
  • Data augmentation:数据增强是通过转换原始标签,以增加数据集的大小,并更好地描述标签空间的做法。这种做法被广泛应用于计算机视觉问题,例如图像分类任务 [10]、[11]、[12]。在控制方面,它主要应用于使用图像作为输入的任务,尤其是自动驾驶问题 [7]、[8]、[9]。

    • [8] 通过扭曲图像,然后为这些它们提供必要的标签,实现数据增强
    • [7] 模拟了不稳定的行为并提供了必要的纠正措施
    • 与我们的工作最相关的工作是 [9],他们在不知道纠正措施的先验知识的情况下,向样本添加了随机噪声,在扰动之后确定了失败的原因,然后提供纠正

    所有这些工作与我们的工作之间的主要区别在于,它们要么在扰动前就确定了扰动样本的标记,要么让专家参与循环来适当地更正样本。与之相比,我们的工作没有这样的知识或资源,而是使用对抗性方法在无帮助的情况下匹配专家分布

    • 在生成数据增强方面(generative data augmentation),[33] 将其应用于图像分割数据集。它的结论是,如果原始有限数据集中有足够的信息,生成的图像会提高图像分割的性能。
    • [34] 评估了生成样本和真实样本之间的性能差异,表明合成数据与原始样本具有相似甚至更好的性能,这支持了我们的主要动机,即合成数据增强可以提高性能

III. PROPOSED METHOD

  • Background:考虑由元组 ( S , A , P , R ) (\pmb{S},\pmb{A},\pmb{P},\pmb{R}) (SSS,AAA,PPP,RRR) 组成的一个马尔可夫决策过程,其中 S = { s 1 , s 2 , . . . } \pmb{S} = \{s1, s2, ... \} SSS={s1,s2,...} 是状态集 , A = { a 1 , a 2 , . . . } \pmb{A} = \{a1, a2, ...\} AAA={a1,a2,...} 是动作集, P ( s ′ ∣ s , a ) \pmb{P}(s'|s,a) PPP(ss,a) 代表在状态 s s s 处执行动作 a a a 并转移到状态 s ′ s' s 的概率, R ( s , a ) \pmb{R} (s,a) RRR(s,a) 是在状态 s s s 处执行动作 a a a 的奖励。我们的目标是学习一个策略 π ( a ∣ s ) \pi(a|s) π(as),它描述了当智能体处于状态 s s s 时采取动作 a a a 的概率,理想的目标是在整个轨迹上最大化累积奖励(即回报)。奖励函数在 RL 中是给定的,而在 IL 中则是从示教推断出来(对于IRL方法)。IRL旨在直接推断奖励函数 [35],其中 GAIL 方法使用一个判别器策略,根据其与专家示教的相似性提供 R \pmb{R} RRR。演示数据集表示为一组轨迹 τ = { τ 1 , τ 2 , . . . } \pmb{\tau} = \{\tau_1,\tau_2,...\} τττ={τ1,τ2,...} ,其中每个轨迹 τ = { ( s 1 , a 1 ) , ( s 2 , a 2 ) , . . . } \tau = \{(s_1,a_1),(s_2,a_2),...\} τ={(s1,a1),(s2,a2),...} 是一个状态-动作二元组序列
  • GAIL:我们的架构基于 GAIL [3] 的对抗模型,它是把监督分类与 RL 相结合的一种方法。与 GAN 类似,带有参数 θ \theta θ 的策略网络 π θ \pi_\theta πθ 生成轨迹,试图欺骗带有参数 w w w 的判别器 D w D_w Dw D w D_w Dw 试图区分真正的专家策略 π E \pi_E πE 与生成的样本。因此,判别器的损失是
    L w = − E π E [ l o g D w ( s , a ) ] − E π θ [ l o g ( 1 − D w ( s , a ) ) ] (1) L_w = -\mathbb{E}_{\pi_E}[logD_w(s,a)]-\mathbb{E}_{\pi_\theta}[log(1-D_w(s,a))] \tag{1} Lw=EπE[logDw(s,a)]Eπθ[log(1Dw(s,a))](1)
    同时,生成器的损失为
    L θ = E π θ [ l o g ( 1 − D w ( s , a ) ) ] (2) L_\theta= \mathbb{E}_{\pi_\theta}[log(1-D_w(s,a))] \tag{2} Lθ=Eπθ[log(1Dw(s,a))](2)
    为了获得 D w D_w Dw 相对于 π θ \pi_\theta πθ 的期望,GAIL 将其建模为 RL 成本函数,并使用诸如 TRPO [21] 之类的梯度方法对其进行近似(也就是说生成器是一个RL方法)

III.A. Framework Overview

  • 如图 2 所示,我们的框架分为两个阶段。
    1. 在第 1 阶段,我们引入了一种轨迹数据集的增强方法。它是通过一种对抗性架构来实现的,该架构执行轨迹校正增强 (Corrected Augmentation for Trajectories, CAT),旨在纠正增强后扭曲的专家行为
    2. 在第 2 阶段,我们使用第 1 阶段的 CAT 网络动态生成合成专家,以训练生成式数据增强模仿智能体(Data Augmented Generative Imitation, DAugGI)
  • CAT 网络的目标是利用专家生成成功的示教。这种半监督模型与标准模仿学习之间的主要区别在于,该网络可以访问专家动作(增强后)的失真序列,并且试图纠正它们,就像图 1 中的例子那样。由于策略具有概率性,因此产生的半监督网络可以产生无限量的修正轨迹,用来增大专家轨迹的数据集
  • DAugGI 网络利用这些增强后的数据集进行模仿学习。更准确地说,我们没有使用有限大小的专家数据集(如 GAIL),而是使用 CAT 来动态生成合成专家。理想情况下,通过访问更多(甚至可能是无限的)专家集合,DAugGI 应该可以更快更稳定地训练

III.B. Corrected Augmentation for Trajectories (CAT)

  • 在监督方法中使用数据增强,可以增加样本的多样性和输入空间的数据集覆盖范围。这种正则化技术可以增强鲁棒性和过拟合抗性 [36]。然而,很难在控制任务中执行数据增强,因为扭曲输入数据(即向动作添加噪声)可以很容易地改变轨迹的标签(即成功的原始轨迹扭曲后变得不成功)。由于控制数据的多样性,很难找到正确的噪音量(扭曲程度),以保留轨迹数据的原始标签。因此,只有在保证标签不会改变的情况下,才能通过控制中的动作扭曲来进行数据增强
    在这里插入图片描述

    • Fig.3. 阶段 1 的详细概述,该阶段执行轨迹的校正增强。由于它由未标记的扭曲动作引导,该架构属于半监督
  • 为了解决这个问题,我们提出了一个半监督的 CAT 框架,旨在纠正增强后扭曲的专家动作,从而生成新的成功的合成演示。如图 3 所示,环境状态 s s s 与来自扭曲专家动作序列的扭曲专家动作 a ′ a' a 连接在一起作为 CAT 的输入
    q = { a 1 ′ , a 2 ′ , a 3 ′ . . . } ,    w h e r e     a t ′ = a E t + v a n d     τ E = { ( s E 1 , a E 1 ) , ( s E 2 , a E 2 ) . . . } (3) q = \{a_1',a_2',a_3'...\},\space\space where \space\space\space a_t' = a_{E_t} + v\\ and\space\space\space \tau_E = \{(s_{E_1},a_{E_1}),(s_{E_2},a_{E_2})...\} \tag{3} q={a1,a2,a3...},  where   at=aEt+vand   τE={(sE1,aE1),(sE2,aE2)...}(3)
    扭曲动作 a ′ a' a 是使用标准差为 σ \sigma σ 的均匀噪声 v v v 扰动专家轨迹 τ E τ_E τE 中的专家动作 a E a_E aE 产生的

  • 扭曲轨迹的最终状态会受到级联误差的影响,因此不能直接作为成功的示教轨迹。另一方面,扭曲的动作 a t ′ a'_t at 组成了有效的 动作序列 q q q ,而且每一步的噪声不依赖于先前步骤的噪声。因此,扭曲动作序列可用于表示专家动作序列的近似值(这里应该是默认了所有状态下的可行动作集是一致的)。CAT 策略网络 π ϕ ( a ∣ s , a ′ ) \pi_\phi(a|s,a') πϕ(as,a) 的目标是通过遵循这些扭曲的动作序列并最小化其与成功轨迹动作序列的差异 ∣ a − a ′ ∣ |a-a'| aa,来生成成功动作序列。修正后的轨迹的形式如下:
    τ c = { ( s E 1 , a c 1 ) , ( s c 2 , a c 2 ) , ( s c 3 , a c 3 ) , . . . } , w h e r e    a c t ∼ π ϕ ( s c t , a t ′ ) (4) \tau_c = \{(s_{E_1},a_{c_1}),(s_{c_2},a_{c_2}),(s_{c_3},a_{c_3}),...\},\\ where \space\space a_{c_t} \sim \pi_\phi(s_{c_t},a_t') \tag{4} τc={(sE1,ac1),(sc2,ac2),(sc3,ac3),...},where  actπϕ(sct,at)(4)
    校正生成器的损失函数定义如下:
    L ϕ = E π ϕ [ l o g ( 1 − D u ( s , a ) ) ] + γ ∣ ∣ a − a ′ ∣ ∣ 2 2 (5) L_\phi = \mathbb{E}_{\pi_\phi}[log(1-D_u(s,a))] + \gamma||a-a'||^2_2 \tag{5} Lϕ=Eπϕ[log(1Du(s,a))]+γaa22(5)

  • 校正生成器损失 (公式5) 和 GAIL损失 (公式2) 之间的主要区别是改变了策略的输入,还增加了利用未标记动作 a ′ a' a 的第二项。这改变了生成器的目标。

    • 现在生成器不仅要试图最大化鉴别器的奖励(得分),还要以最小化其动作与失真的专家动作序列之间的差异,因此,这里需要扰动动作 a ′ a' a 作为辅助
    • 鉴别器的目标是将生成的样本与真实专家(fixed real experts)分开。由于未标记数据不是其目标的一部分,因此其损失与 GAIL 相同,如(公式1)所示
      L u = − E π E [ l o g D u ( s , a ) ] − E π ϕ [ l o g ( 1 − D u ( s , a ) ) ] L_u = -\mathbb{E}_{\pi_E}[logD_u(s,a)]-\mathbb{E}_{\pi_\phi}[log(1-D_u(s,a))] Lu=EπE[logDu(s,a)]Eπϕ[log(1Du(s,a))]
  • 算法 1 中给出了 CAT 过程
    在这里插入图片描述

III.C. Data Augmented Generative Imitation (DAugGI)

  • 轨迹数据增强的最终目标是改进模仿效果。数据增强方法通常产生固定的增强数据集。然而,CAT 已经对修正后的状态-动作对的分布进行了建模。因此,与 [37] 类似,我们可以使用引导 CAT 策略生成动态专家,而不是在固定数据集中对其分布进行二次采样,如图 4 所示
    在这里插入图片描述

    • Fig.4. 阶段 2 的详细概述,它执行数据增强生成模仿(就是用生成的增广数据进行模仿学习),包括成功过滤机制
  • 尽管我们的方法使用 CAT 的输出来教授模仿网络,但它不是教师/学生 (T/S) 网络。实际上,T/S 网络通常具有相同的目标 [31]、[38](或至少相同类型的输入 [39]),因此,他们至少在一定程度上可以共享权重,因为他们试图学习相似的特征。相比之下,在我们的设置中,两个网络有不同的目标 —— 一个是纠正,另一个是模仿,它们也有着不同的输入。然而,它们确实共享相同的输出空间,并且它们产生的轨迹具有可比性。这就是为什么在我们的架构中,两个网络仅在输出空间中相连接,我们使用 CAT 网络动态生成合成专家,用这些专家指导 “数据增强生成模仿 (DAugGI) 网络”,从头开始执行任务

  • 校正后的轨迹 τ c \tau_c τc 和真正的专家轨迹 τ E \tau_E τE 之间的一个重要区别是,尽管进行了校正,但不能保证前者一定会成功。仅当 CAT 本身具有非常高的成功率时,使用 CAT 的每个输出来训练 DAugGI 才是有益的(参见第 IV 节)。如果不是这种情况,则需要一种选择性机制来过滤掉不成功的更正,以免误导生成器。在大多数实际应用中,我们通常对每个任务的成功标准有先验知识,因此我们可以轻松地将其用作过滤器。该信息是二进制且稀疏的,因为它仅在每个轨迹的末尾提供,因此在实践中很容易实现。虽然它的简单性和稀疏性使得在 RL 中将其用作奖励非常困难,如 [5] 和第 IV 节中所见,但在我们的情况下非常有益

  • DAugGI 的网络架构与 GAIL 类似,如图 4 所示。在第 1 阶段之后,我们冻结 CAT 策略网络并将其包含在模仿网络的训练过程中。DAugGI 策略 π θ π_\theta πθ 的目标是匹配专家分布,因此其损失函数与 GAIL 的生成器相同,如(公式2)所示
    L θ = E π θ [ l o g ( 1 − D w ( s , a ) ) ] L_\theta= \mathbb{E}_{\pi_\theta}[log(1-D_w(s,a))] Lθ=Eπθ[log(1Dw(s,a))]
    另一方面,鉴别器 D w D_w Dw 试图区分 CAT 策略网络(生成器) π ϕ \pi_\phi πϕ 和 DAugGI 策略网络(生成器) π θ \pi_\theta πθ 生成的样本,而不是 GAIL 中的 π θ \pi_\theta πθ π E \pi_E πE。因此,判别器 D w D_w Dw 的损失为
    L w = − E π ϕ [ l o g D w ( s , a ) ] − E π θ [ l o g ( 1 − D w ( s , a ) ) ] (6) L_w = -\mathbb{E}_{\pi_\phi}[logD_w(s,a)] - \mathbb{E}_{\pi_\theta}[log(1-D_w(s,a))] \tag{6} Lw=Eπϕ[logDw(s,a)]Eπθ[log(1Dw(s,a))](6)

  • 尽管完成了相同的任务,但模仿和纠正网络的动机却截然不同

    • 模仿网络,如 DAugGI 和 GAIL,它们的目标是在 “在任务执行期间没有任何监督” 的情况下执行任务
    • 另一方面,我们的校正网络 CAT 在执行期间会受到 “轨迹应该是怎样的” 这个估计的引导(相当于进行了监督),然后它会对各个动作进行微纠正,以确保最终结果是成功的(示例参见图 1)。

    在训练方面,CAT 网络更稳定,学习速度更快,因为它被赋予了更多的信息,这也得到了第四节中的实验的支持。不过,就多样性而言,模仿网络在轨迹上具有更大的多样性,因为它可以自由探索整个状态-动作空间。另一方面,引导 CAT 网络限制了它对次优轨迹的探索,并专注于它们的状态-动作空间

IV. EXPERIMENTS

  • 本节展示的若干实验评估了在模仿学习中进行轨迹增强的有效性,包括对 CAT 和 DAugGI 网络成功性和多样性的评估

IV.A. EXPERIMENTS

  • 我们在两种类型的任务上测试我们的方法。一个是 OpenAI [40] 的经典控制环境,另一个是 [5] 中提出的更复杂的灵巧对象操作任务,这个任务使用真正的专家演示

  • OpenAI Tasks:我们在两个 OpenAI 任务 InvertedPendulum 和 HalfCheetah 上测试我们的框架。虽然这两个任务在 GAIL 的原始演示 [3] 中可以使用充足的专家示范和环境交互步骤成功训练,但是我们通过将专家演示显著减少到 3 条,并将每次迭代的步骤缩小 16 倍以上来增加任务的难度。也就是说我们在资源和专家数量有限的恶劣环境条件下进行测试。由于 CAT 网络可以设法获得非常成功的结果,DAugGI 中的合成专家不需要过滤机制

  • Dexterous Object Manipulation Tasks:这些任务涉及使用灵巧的仿生机械手进行对象操作,包括

    1. 开门(Door)
    2. 敲钉子 (Hammer)
    3. 操纵笔(Pen)

    由于任务的复杂性,所有这些任务都需要在训练 DAugGI 时对合成专家给出的示范进成败过滤。使用的过滤标准与评估的成功标准相同。所有开门实验也都用 BC 进行了 10000 次迭代的预训练,以加快训练速度

  • [5] 中的所有专家轨迹都是使用 CyberGlove III 和 HTC headset and tracker 采集的。为了用这些数据集评估模仿性能,我们首先训练不稳定的 GAIL baseline,然后评估我们的增强对稳定性、成功和多样性的影响。由于我们在每个轨迹的末尾使用成败过滤器,因此我们还将其与 Deep Deterministic Policy Gradient (DDPG) RL 方法 [41] 进行了比较。为了公平比较,DDPG 智能体仅使用成败过滤器作为每个轨迹末尾的稀疏二元奖励进行训练

  • 关于多样性,我们测试了整个原始专家数据集,以及来自 GAIL 和我们的两个生成器 CAT 和 DAugGI 的 100 个成功轨迹的生成数据集。所有使用的网络由两个隐藏层组成,有 64 个神经元,所有环境都设为 λ = 0.1。 InvertedPendulum 和 HalfCheetah 的迭代大小为 2 10 2^{10} 210,Door 和 Hammer 任务的迭代次数为 2 14 2^{14} 214,Pen 的迭代次数为 2 12 2^{12} 212。本工作中使用的模拟环境是 Mujoco Pro [42],所有实验均使用 Intel Xeon E5-2650 v2 @ 2.60GHz CPU、NVIDIA GeForce GTX 1080 Ti GPU 和 256 GB RAM 进行

IV.B. CAT Evaluation

在这里插入图片描述

  • 我们首先评估 CAT 成功纠正失真动作序列的能力。具体方法是比较若干次校正后的成功率与原始随机扰动的成功率。其结果列于表 I(左)中。对于 OpenAI 任务,即使在严重失真的情况下,CAT 几乎总是能够成功纠正。机械手操作任务更具挑战性,但在大多数情况下它仍然能够超越随机扰动。最具挑战性的任务是 Pen 任务,可能是因为它的成功比其他任务更难推断,导致了无效的纠正。尽管如此,它的轨迹并没有崩溃,因为 CAT 的多样性非常接近原始示范,如表 I(右)所示。这表明即使 CAT 策略是“坏”教师,它仍然足以成功训练 DAugGI 策略,如图5所示
    在这里插入图片描述
    • Fig,5. a) 不同训练步骤下各种任务的性能结果。它包括由 3个专家组成的简单 OpenAI 任务(HalfCheetah 和 InvertedPendulum),以及由 25 个专家组成的更具挑战性的机械手控制任务(Door、Hammer、Pen)。DAugGI 使用 CAT 增强的轨迹进行训练,通常优于使用原始有限轨迹进行训练的 GAIL。b) 使用不同数量的专家对 HalfCheetah 和 Door 任务进行消融研究。DAugGI 始终优于 GAIL,尤其是在专家数据集有限的情况下

IV.C. DAugGI Evaluation

  • 我们进一步评估了 CAT 增强后模仿的成功性和稳定性。具体地说,使用 CAT 训练 DAugGI 策略网络,然后将它与 GAIL 和稀疏指示奖励的 DDPG 策略进行比较。如图 5 所示,评估过程中,它们使用多个种子,在与不同的环境交互步骤中生成样本。由于缺乏可用专家,所有种子都使用相同的专家
  • 图 5 a) 说明,由于任务难度不同,出现了不同的响应。非常简单或很困难的任务,例如 InvertedPendulum 和 Pen,DAugGI 的行为似乎与 GAIL 非常相似。这是因为任务要么已经很容易解(InvertedPendulum),要么 “坏” 老师不提供任何额外的信息(Pen)。但即便如此,它似乎不仅保留了原始信息,还增加了稳定性。 中等难度的任务,如 HalfCheetah 和 Door,是受益最大的任务,DAugGI 显示出明显的改进。 对于另一个中等难度的 Hammer 任务,DAugGI 设法大大提高了其稳定性,而 GAIL 的收敛能力被证明非常不稳定
  • 所有 DDPG 运行都无法收敛,这意味着每个轨迹末尾的成败过滤器信号对于纯 RL 方法来说信息不足。[5] 中也报告了类似的发现,其中使用了稀疏奖励。 此外,我们评估了专家数据集大小的重要性。 图 5 b) 表明,即使在专家很少的极端情况下,DAugGI 也可以提高整体性能,而 GAIL 通常在这种情况下表现不佳

IV.D. Diversity

  • 多样性是在计算机视觉任务中测试 GAN 相关方法的一个常用评价指标 [43],由于生成轨迹的顺序性,在控制任务中难以直接评价。为了量化我们生成器的多样性能力,我们引入了一个数据集指标,该指标利用轨迹之间的动态时间扭曲 Dynamic Time Warp (DTW) 分数进行评判。如 [44] 所述,DTW 为轨迹之间的比较提供了比距离更好的度量,但只能执行成对比较。为了生成整个数据集的分数, T = { τ 1 , . . . , τ N } \mathcal{T} = \{\tau_1, . . . , \tau_N \} T={τ1,...,τN},我们计算数据集中所有可能轨迹对的平均 dtw 分数,并进一步用专家的多样性对其进行归一化
    在这里插入图片描述
    与 [45] 类似, τ z i \tau_{z_i} τzi 是 z 归一化的 τ i \tau_i τi 轨迹

  • 每个生成器的多样性比率,使用(公式7)和 FastDTW [46],如表 I(右)所示。CAT 的多样性比其他网络小,这是预期内的,因为它由大量相似的轨迹引导。但我们仍然希望它能够更好地代表不同专家之间的空间。为了测试这一点,我们比较了分别用原始专家训练的 GAIL 和使用 CAT 训练的 DAugGI 的多样性。令人鼓舞的是,DAugGI 网络的多样性不仅与 GAIL 非常接近,而且在大多数情况下甚至略高于它。这表明 CAT 可能比原始专家数据集泛化得更远

V. CONCLUSION

  • 在这项工作中,我们提出了一个控制系统的数据增强框架。由于轨迹的(马尔可夫)性质,不能保证失真后的轨迹会保留它们的标签(轨迹成功与否)。因此,我们开发了一个半监督校正网络,该网络用失真扭曲的专家动作引导并产生合成专家轨迹。我们的实验表明,校正网络不仅可以捕获至少相等且通常更好的动作空间表示,而且还可以为模仿智能体提供更快、更稳定和同样多样化的训练环境。目前工作的潜在扩展是
    1. 将其转化为相互学习,以便两个网络相互帮助
    2. 将多样性度量纳入训练过程
    3. 在现实生活环境中应用该框架,比如用在具有结构化噪声的 near-expert trajectories 上

句子摘抄

  • However, this cannot be easily applied to control tasks due to the sequential nature of the problem
    但是,由于控制任务具有时序性,这种方法不能简单地应用

  • To achieve this, we introduce a semi-supervised correction network that aims to correct distorted expert actions
    为了实现这一点,我们引入了一个半监督校正网络,旨在纠正失真的专家动作

  • Imitation learning (IL) leverages sample demonstrations from an expert to train an autonomous agent on a variety of complex tasks
    模仿学习 (IL) 利用专家示教来训练智能体处理各种复杂任务

  • In an effort to combine RL elements with supervised learning, …
    为了将 RL 元素与监督学习相结合,…

  • This ends up being a major bottleneck for most real-world applications, especially in deep learning settings, where a large number of demonstrations is typically needed
    这最终成为大多数实际应用的主要瓶颈,特别是在使用了深度学习的情况下,这时通常需要大量示教数据

  • As stated above, noise in the acquisition process can affect expert demonstrations, to the point they become unsuccessful in the agent’s domain, making them unusable
    如上所述,轨迹增强过程中的噪音会影响专家示教,以至于它们在 agent’s domain 中无法成功完成任务,无法使用

  • We also introduce a novel way of measuring diversity in trajectorial datasets, in order to ensure the variance in the generated trajectories is comparable to the real expert ones.
    我们还引入了一种测量轨迹数据集多样性的新方法,以确保生成的轨迹中的方差与真正的专家轨迹相当

  • It also seems to retain most of the diversity of the expert trajectories without mode collapsing, thus indicating that random dynamic experts can offer a better representation of the state-action space.
    它似乎还保留了专家轨迹的大部分多样性而没有模式崩溃(mode collapsing),因此表明(生成的)随机动态专家可以提供更好的状态-动作空间表示

  • In their method, [3] sought to combine imitation with RL [21], [22] in an effort to uncover a robust policy without the difficult task of defining an RL reward function
    在他们的方法中,[3] 试图将 IL 与 RL [21]、[22] 结合起来,努力寻找一个健壮的策略,而无需进行RL中奖励函数设计这一艰巨的任务

  • It concluded that, provided there is enough information in the original limited dataset, the generated images boost the performance of image segmentation
    它的结论是,如果原始有限数据集中有足够的信息,生成的图像会提高图像分割的性能

  • That is why, in our architecture, the connection between the two networks is only in the output space, where we use the CAT network to dynamically produce synthetic experts which, in turn, teach a Data Augmented Generative Imitation (DAugGI) network to perform the task from scratch.
    这就是为什么在我们的架构中,两个网络仅在输出空间中相连接,在这里(连接处),我们使用 CAT 网络动态生成合成专家,这些专家进而教授数据增强生成模仿 (DAugGI) 网络,从头开始执行任务

  • If this is not the case, a selective mechanism is needed to filter out unsuccessful corrections so as not to confuse the generator
    如果不是这种情况,则需要一种选择性机制来过滤掉不成功的更正,以免误导生成器

  • Whereas its simplicity and sparsity make using it as a reward in RL very difficult, as seen in [5] as well as Section IV, it is very beneficial in our case.
    虽然它的简单性和稀疏性使得在 RL 中将其用作奖励非常困难,如 [5] 和第 IV 节中所见,但在我们的情况下非常有益

  • Despite completing the same task, the motivation of the imitation and correction networks is distinctively different.
    尽管完成了相同的任务,但模仿和纠正网络的动机却截然不同

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值