基于学习的机器人手中操作方法综述_移动机器人 learning-based 知乎-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/144072098

24年10月来自以色列 A.I. Weinberg、以色列 IIT 和特拉维夫大学的论文“Survey of Learning-based Approaches for Robotic In-Hand Manipulation”。

人类的灵巧性是复杂任务中精确操纵目标的宝贵能力。机器人能够以类似的方式抓取目标并用手操纵目标，这对于它们在不断变化的人类环境中的使用以及它们取代人力的能力至关重要。近几十年来，人们付出了巨大的努力，使机器人系统具有手操纵能力。最初的机器人操纵器遵循精心编程的路径，而后来的尝试则提供了基于运动和接触分析建模的解决方案。然而，由于无法应对复杂的环境和不确定性，这些方法未能提供实用的解决方案。因此，人们的努力已经转向基于学习的方法，即在反复尝试完成各种任务的过程中从现实世界或通过模拟收集数据。绝大多数学习方法都侧重于学习在某种程度上描述系统的基于数据模型或强化学习 (RL)。由于能够在最少的人为指导下生成问题解决方案的出色能力，RL 尤其引起了人们的关注。综述中追踪手中操作学习方法的发展，并探讨其中的挑战和机遇。

如图所示，将机器人手部操作分为两大类：灵巧和非灵巧手部操作。前一种方法在算法和发表的论文数量上更为丰富。此外，将操作类型分为在执行过程中具有连续接触和非连续接触的操作。连续方法比另一种方法具有更多的技术，因为与非连续方法相比，它通常使用具有更高自由度 (DOF) 的灵巧机械手 [5]。

请添加图片描述

学习手中操作的努力可以分为三个子领域：基于模型的方法、强化学习 (RL) 和模仿学习 (IL)。基于模型的方法侧重于对系统或状态表示的动态进行监督学习。另一方面，RL 提供了一个奖励函数，其中嵌入了一个隐式指令，让系统自学完成任务的最佳策略。同样，模仿学习需要一种模仿人类专家演示的策略。这些方法对于手中操作具有重要意义，因为它们各自在提高机器人能力方面都具有独特的优势。它们为改进机器人手中操作提供了互补的贡献。基于模型的方法为理解系统动力学提供了基础，RL 支持自学最佳策略，而模仿学习则允许从人类的专业知识中学习。

机器人手中操作涉及机器人末端执行器、物体以及环境之间的物理交互 [77]。末端执行器的属性决定了其操纵目标的能力，包括：感官知觉、自由度数、运动学和摩擦力。

传统范式是区分灵巧手和非灵巧手。一般来说，灵巧操作是多个机器人手臂或手指协作来操纵目标 [78]。因此，灵巧手中操作是利用目标自身的力学原理在手中操纵目标 [79]。自然，灵巧手中操作需要大量自由度，在大多数情况下包括拟人的手。与灵巧手相反，非灵巧手的自由度较低，因此，它们本身不具备操纵目标的能力，需要一些外部参与。

手中操作类型，分成保持和不保持与物体持续接触的操作。（这些类型，可以分为灵巧和非灵巧操作。）

1）保持持续接触的手中操作：在机械手中启动目标运动存在失去控制并可能掉落的风险。因此，大多数手中操作在执行运动的同时，保持与目标的充分接触，因为这是最安全的方法。然而，成功操作的一个突出条件是在整个运动过程中保证抓握稳定性。以下是保持接触的关键手中操作类型。
•滚动（rolling）。滚动操作是通过滚动接触在手中旋转目标的能力。这是由接触期间手指运动引起的，而目标靠在手的另一部分上，通常是静态的，例如另一根手指或手掌[82]。滚动操作仅限于某些几何形状的目标，最适用于圆形目标。
•旋转（pivoting）。旋转是将目标在两根手指之间相对于手重定位 [83, 84]。旋转点通常是手指的夹点，重定位会进行到某个所需的角度。旋转操作可以通过利用重力 [85]、启动外部接触 [86] 或产生机械臂的动态运动 [27, 87] 来完成。
• 滑动（sliding）。在手内滑动操作中，启动受控滑动以改变目标相对于手的相对位置 [88]。由于手指的力或外力，目标沿着手的链接滑动到所需位置 [89]。
• 抓握（in-grasp）。虽然旋转、滑动和滚动旨在改变目标的位置或方向，但抓握利用手的运动冗余来改变目标的位置和方向 [90]。在操作过程中，保持手指接触和稳定抓握。但是，可能会发生滑动或接触滚动 [23]。
• 手指步态（finger gaiting）。一种类似于步态的方法，利用手的自由度在接触位置之间切换，同时保持力-闭合的抓握 [84, 91–93]。因此，该方法通常以准静态方式执行，其中运动相对较慢以减少动态影响。手指步态可能被认为是相当浪费的，因为它需要足够多的自由度来在两个抓握配置之间操纵抓握的目标，同时保持稳定的抓握。

不保持连续接触的手中操作：
• 拾取和放置。虽然通常不被视为手中操作，但拾取和放置值得一提，因为它是最常见的。该方法在机械臂附近指定一个工作区域，可以以受控方式将抓握的目标放置在其中，然后在新的抓握配置下再次拾起 [94, 95]。这种方法消耗了宝贵的生产时间并占用了大量的工作区域。
• 动态重新抓取。在这种方法中，机器人通过一系列动态运动来有意地失去抓握稳定性。在大多数情况下，目标被抛出或释放到半空中，然后以不同的抓握方式被抓住。因此，手与目标失去（全部或部分）接触，并通过在最终接触点抓住目标重新获得接触 [96]。这种方法具有操作速度快的优点，并且可能需要较少的自由度。然而，与保持接触的操作相比，动态重新抓取的成功率可能较低，因为在整个运动过程中无法保持目标稳定性。

非灵巧手的手中操作，如图所示：

请添加图片描述

1）平行夹持器：最常见和普遍存在的非灵巧机械手是图（a）中所示的平行或钳口夹持器。平行夹持器因其简单、耐用和低成本而被广泛使用。它们可以精确地抓住几乎任何相同规模的目标，因此在工业物料搬运应用中无处不在 [97]。平行夹持器通常只有一个用于打开和闭合钳口的自由度。因此，它们不具备独立的手中操作能力。因此，使用平行夹持器进行手中操作的解决方案通常涉及拾取和放置的离散操作方法 [95]。在拾取和放置过程中，将目标放置在表面上，然后以不同的抓取配置再次拾起 [98]。然而，拾取和放置可能很慢，并且需要机器人周围有较大的表面积。因此，使用平行夹持器进行手中操作的方法（不涉及拾取和放置）也分为外部灵活性和内部灵活性 [13, 90]。前者弥补了夹持器自由度的不足，涉及整个机械臂的动作，用于将目标推向障碍物 [86, 99] 或执行动态操作。例如，可以通过手臂的内在滑动控制或外部动态操纵来完成旋转 [28, 85, 87]。滑动控制利用重力并调节平行夹持器的手指接触力 [100]。Costanzo [101] 利用双臂系统和触觉反馈来实现目标和平行夹持器之间的受控滑动。Shi 的工作 [102] 控制了捏握的力分布以预测滑动方向。同样，Chen [103] 控制平行夹持器抓取的目标滑动速度。

在内部操纵中，利用夹持器的可用自由度来操纵被抓取的目标 [104]。尽管钳口夹持器只有一个自由度，但人们已经做了一些工作来增强其内部操纵能力。这些机械手配备了传统单自由度并联夹持器以外的附加功能，因此不能再归类为简单的夹持器。Nagata [105] 的开创性工作提出了六种夹持机构，在尖端有一个额外的自由度，每种机构都可以在某个方向上旋转或滑动目标。类似地，夹持器的手指中集成了一个被动旋转机构，使物体能够靠重力在手指之间旋转 [106]。Zhao [107] 用双自由度传动机构增强了钳口夹持器尖端，以重定位和平移随机放置的螺钉。Zuo [108] 沿着两个手指分别增加了线性驱动，以实现被抓取目标的平移和扭转。类似地，Chapman [109] 在夹持器上添加滚动机构，以便操纵扁平电缆。通过在一根手指上采用主动传送表面，还实现了最小欠驱动夹持器的手动操作 [110]。Taylor [111] 在平行夹持器中加入了气动制动机构，以便在目标自由旋转和固定状态之间转换。上述平行夹持器的增强方法仅限于一个操作方向，并且会产生笨重的机制，使硬件复杂化。然而，有一种简单的振动机制，使薄目标在平行夹持器的钳口之间实现 SE(2) 滑动运动 [112]。这些创新设计提供增强的手动操作能力，而无需复杂的额外控制或软件，为手动操作领域的研究和开发开辟新的途径。这些系统的传统控制和运动规划方法通常缺乏灵活性，无法推广到不同的任务和目标。基于学习的方法为增强这些机制的能力提供一种有希望的解决方案。

2）软手：软手是由柔软或弹性材料制成的机械手。由于其柔软的结构，它们通常在与环境相互作用时提供被动柔顺性[113]。因此，它们可以在没有先验知识的情况下抓住不同大小和形状的目标。一类的软手是气动手，其中可伸展的手指可以充气以产生抓握力。例如，RBO Hand 2 是一种柔顺的、欠驱动的拟人机器人手[114]。手的每个手指都由铸造硅制成，并用非弹性织物包裹。充气时，织物将手指的伸展引导至柔顺的抓握位置。如图（c）演示了使用气动手进行手内操作，其中启发式手指步态实现了连续的目标旋转 [80]。另一种气动手具有可重构手指和活动手掌，旨在实现手部灵活性，同时保持较低的机械复杂性 [115]。Batsuren & Yun [116] 展示了一种软夹持器，通过模仿手部操作来抓取各种目标。它由三根手指组成，每根手指包含三个气室：两个侧室用于向两个不同方向扭转，一个中室用于抓取。这些气室的组合使得抓取和旋转目标成为可能。

有一种重要的类通常被称为软手，是欠驱动（underactuated）或柔性手（compliant hand） [117, 118]。虽然这种手的连杆通常是刚性的，但每根手指都有柔性关节和弹簧，其中肌腱丝沿其长度延伸并连接到致动器，如图（d）所示。这种结构使两根或更多根手指的手能够通过使用柔性来被动适应不确定大小和形状的目标 [119]。因此，它们无需触觉或事先规划，只需开环控制即可提供稳定、稳健的抓握。此外，由于执行器数量少，它们可以实现低成本和紧凑的设计。最近，开源硬件被分发用于科学贡献，并且可以通过 3D 打印轻松修改和制造 [81]。除了良好的抓握能力外，还证明了精确的抓握操作是可能的 [120]。使用视觉伺服以及手部运动学的线性近似，展示了两指手的闭环控制 [121]，随后用于跟踪使用基于优化的无模型规划器规划的路径 [122]。

然而，由于柔顺性和固有的制造不确定性，软手的精确分析模型并不容易获得。因此，提出了基于数据的模型。

再说灵巧手的手中操作。

Mason 和 Salisbury [79] 声称，刚性手可以通过至少三个手指（每个手指有三个关节）获得对目标的控制能力。这种手部控制称为灵巧操作，手就是灵巧手。自然，满足这种灵巧条件的夹持器是仿生的或拟人化的 [123]，如图（b）所示。灵巧拟人手的早期研究包括三指 11 自由度手 [124]、四指 Utah/MIT 手 [125]，以及后来的 Barrett 手和 DLR 手 [126, 127]。此外，还对五指拟人手进行了广泛的研究。与 DLR 手类似，Gifu 手在关节中使用了 16 个内置伺服电机 [128]。另一方面，Robotnaut 手专为空间使用而设计，包括用于弯曲手指的柔性轴 [129]。有一只手使用了 13 个柔性流体致动器，实现了轻量化设计 [130]。UB 手是一只五指拟人手，使用弹性铰链模仿人体运动 [131]。除了拟人设计外，还提出了一些非拟人灵巧手，在各种设计中加入多个手指 [132]。然而，大多数设计非拟人多指手的尝试都有驱动不足问题，限制了它们的灵活性 [133]。

虽然最近关于灵巧手手中操作的研究是基于学习方法的，但早期和最近很少有研究提出非数据驱动的方法。例如，Furukawa 的研究 [134] 提出了一种基于被操作目标视觉反馈的多指手高速动态重新抓取策略。另一项研究引入了一个规划框架，使拟人手可以在手指步态和抓握操作之间交替 [135]。Pfanne [136] 的最新研究使用阻抗控制，使灵巧的多指手能够在各种目标上实现稳定的手指步态。

多指拟人手通常用于仿生假肢的开发，因为它们与人手相似 [137]。它们通常由肌电图 (EMG) 信号操作，以减轻用户的认知负担 [138]。虽然这些手通常非常灵巧，并且具有来自各种传感器的多模态信息 [139]，但它们的用途通常仅限于拾取和放置任务 [140]。因此，目前探讨的学习方法为提高各种手（包括具有手中操作任务的假手）的能力提供了潜在途径。

感知模块分析。

人类使用视觉反馈和触觉感知与环境交互，特别是操纵手中的目标 [141]。此类传感模块已在机器人技术中得到广泛探索，既有单独的，也有组合的。

1）视觉：使用不同的视觉感知变化来观察被操纵的目标并实时估计其姿势。最简单的应用是定位可靠标记，例如 ArUcO [142]、AprilTags [143] 或 Azulay 的运动捕捉系统 (MoCap) 反射标记 [21]。这些标记可即时识别刚性目标的姿势，而无需识别其几何形状 [144]。然而，将它们应用于目标上的要求会阻止与目标的自发非规划交互。具体来说，对于反射标记，工作仅限于 MoCap 系统所在的房间或实验室。一般来说，基于视觉的标记需要持续可见于相机。因此，它们通常用于操纵特定的已知目标，或用于原型设计。例如，在用欠驱动手抓握目标的过程中，可靠标记用于视觉伺服 [145] 和手部状态表示 [61]。

虽然可靠标记可以提供即时的姿态估计，但它们对预定义视觉模式的依赖限制了它们在现实环境中的适用性。为了解决这个问题，视觉感知与基于学习的方法相结合，通常用于鲁棒的物体识别和姿态估计。视觉姿态估计基于目标的几何识别，通常基于 RGB（单目）相机、深度相机或两者（RGB-D）。利用 RGB 数据，已经进行了大量工作从 2D 图像回归目标的空间姿态 [146–148]。然而，在已知目标的简单应用中，可以使用图像处理工具对其进行分割。例如，Furukawa [134] 使用高速视觉系统来跟踪被多指手抛出和抓住的圆柱体。类似地，高速摄像机被用来用快速多指手解决魔方问题 [149]。OpenAI 的一项工作使用三个 RGB 摄像机来训练一个模型，估计由 Shadow hand 操纵的魔方姿势 [17]。Ichnowski [150] 提出了 Dex-NeRF，这是一种使用神经辐射场 (NeRF) 技术实现抓取的新方法。NeRF 接收五维向量作为输入，可用于抓取透明目标。仅在初始阶段之后，使用人工神经网络 (ANN) 计算 RGB 值。

与 RGB 相机相反，立体视觉相机、激光扫描仪和深度相机等 3D 传感可以直接访问环境中目标的距离。特别是 RGB-D 传感提供了与视野中目标的空间位置相对应的额外点云。常用的深度相机包括英特尔的 RealSense 和 StereoLab 的 ZED，后者利用 GPU 功能实现高级空间感知。例如，RGB-D 相机用于估计软手抓取之前和抓取过程中目标的姿态 [151]。类似的工作涉及深度相机，以展示被两指欠驱动手抓取和部分遮挡目标的稳健姿态估计 [152]。虽然视觉感知可以提供被操纵目标的准确姿态估计，但它需要一个视线。因此，它无法在全遮挡的场景中发挥作用，并且可能对部分遮挡敏感。因此，基于触觉的方法可以提供替代或补充解决方案。

触觉：触觉传感器的信息是通过与目标直接接触获得的，即触觉 [153] 或关节执行器的内部感应，也称为运动（或本体感觉）触觉 [154]。传统上，触觉指的是从触摸感应中获得的信息，而运动触觉是指通过关节和执行器的运动、力量或位置感知的手内部信息。虽然运动触觉更容易测量，但触觉感知是用于目标识别和手部操作的主要触觉感知工具。最先进的触觉传感器包括指尖上的力传感器、压力传感器阵列 [155] 或高分辨率光学传感器 [156, 157]。利用这些传感器，机械手可以在交互过程中持续获取有关它们与被操作目标之间接触力大小和方向的信息。在可变形目标的手部操作任务中，压力传感器阵列用于对 shadow hand 进行伺服控制 [158]。光学触觉传感器的工作原理是将一种光图案投射到表面上，并使用一个内部摄像头观察接触引起的图案扭曲。不同的传感器采用不同的摄像头，传感分辨率高达2592×1944。这种扭曲提供了关于形状、纹理和施加表面的压力信息 [159, 160]。Lamberta [161] 使用这些传感器来学习手中操作模型。为了结合触觉和视觉感知的优势，一些研究结合了这两者来探索抓握操作过程中手部与目标的相互作用 [162]。虽然触觉提供了关于与环境接触状态的宝贵信息，但传统的分析方法通常不足以处理这些数据。因此，基于学习的方法已成为一种有前途的解决方案，可用于从触觉传感器数据中提取有意义的信息。

仿真模拟模块。

模拟手中和灵巧的操作是机器人研究的一个重要方面，它为开发和测试高级控制算法提供了受控环境。高保真模拟器（如 MuJoCo [163] 和 Isaac Gym [164]）可让研究人员模拟机械手与目标之间的复杂交互，从而能够研究诸如重定向立方体 [165]、打开门 [58] 或动态调整对不规则目标的抓取 [166] 等任务。例如，MuJoCo 模拟软接触的能力和 Isaac Gym 的高速并行模拟，使它们成为训练和评估机器人操作策略的宝贵工具。

模拟在灵巧操作研究中的应用非常有价值。它能够进行大规模实验和快速迭代，消除了与物理测试相关的风险或成本。研究人员可以在受控且可扩展的环境中探索具有多模态感知的复杂操作任务，包括触觉和视觉输入 [76]。最终，这些模拟推动了更具适应性的机器人系统发展，这些系统能够在非结构化环境中实现与人类相似的灵活性。

尽管这些模拟器具有诸多优势，但它们在准确复制现实世界的物理方面仍面临重大挑战，特别是在建模摩擦、软变形和接触力方面 [167]。由于未建模的动力学和传感器噪声，这种模拟与现实之间的差距可能导致在模拟中学习的行为无法无缝转移到物理机器人上。此外，虽然刚体动力学通常可以很好地表示出来，但模拟器在处理软材料和可变形目标时会遇到困难，而这对于处理布料或精致物品等任务至关重要。更具体地说，欠驱动手的模拟仍然是一个挑战。

数据集问题。

学习模型需要大量数据才能达到足够的精度。许多应用中的数据本质上是高维的，通常由多模态信号（如视觉和触觉数据）组成。如上所述，模拟器提供了收集此类数据的环境。然而，和现实差距往往太大，获取现实世界的数据是必要的。然而，获取数据可能会很累、昂贵甚至危险。因此，从业者经常传播他们收集的数据，以造福社区并用于潜在的基准测试 [168]。例如，RealDex 是一个数据集，专注于基于远程操作捕捉具有人类行为模式的真实灵巧手部动作 [169]。

RUM 数据集包括用自适应手对各种目标进行真实手部操作的数据 [170]。一个突出的数据集是 YCB 目标和模型集 [171]，旨在提供一组标准目标，用于对包括手中操作在内的一般操作任务进行基准测试 [77]。有些数据集是基于模拟的，例如 DexHand [172]，其中的数据由 Shadow Hand 机器人操纵立方体的 RGB-D 图像组成。

总体而言，公开可用的数据集是促进标准化目标、任务和评估指标的重要工具，可用于对机器人手部操作的不同方法进行基准测试和比较。

基于模型的手中操作学习方法

无论夹持器、目标或任务属性如何，建立手中操作的控制策略仍然具有挑战性。已采用各种接触模型和手部配置来开发手中操作的运动学和动力学模型。为了使用这些模型执行手中操作任务，需要详细了解目标与手的交互。

然而，对于大多数机器人场景，由于通常无法预先知道目标的精确属性，因此无法使用传统的分析方法合理估计此类信息。模型学习为此类系统提供了一种除仔细分析建模和精确测量之外的替代方案，可以通过机器人与环境的交互或人类演示来实现。可以使用各种监督学习 (SL) 技术明确地学习模型，也可以通过最大化目标函数隐式地学习模型。

状态表征的学习

学习机器人手部操作的状态表示是指开发一个数学模型的过程，该模型描述操作过程中手-目标系统的各种状态。该模型可用于表示目标的位置、方向、速度和其他物理属性。此外，该模型还可用于预测目标对某些动作的响应。

状态表示是一个重要的构建块，其中目标-手配置在任何给定时间都得到充分描述。例如，如果机器人试图在手中滚动目标，它可能会使用某种状态表示来测量和跟踪目标的姿势，并使用此信息来采取明智的行动。在 SL 中，ANN 通常用于从数据中提取相关特征并从高维观察空间中学习有用的特征 [17, 21, 30, 34, 173]。它在组合来自多个传感器或信息源的数据方面也很有效 [55]，并且经常被机器人用来合并来自不同模态的信息，例如视觉和触觉反馈 [17]。如果无法对目标-手状态进行紧凑而有意义的表示，机器人可能难以成功有效地执行操作 [21]。

触觉感知通常用于在不确定的环境中学习目标的各种特征，以便抓取和操纵它。这些信息可能包括刚度、纹理、温度变化和表面建模 [174]。通常，触觉感知与视觉一起使用以改进初始姿态估计 [175]。接触感应是操作过程中姿态估计的常用方法 [21]。这种感应通常是使用简单的力或压力传感器实现的 [176–178]。因此，Koval [179] 使用接触传感器和粒子滤波来估计接触操作过程中目标的姿态。Park [53] 使用气动手指中的软传感器和神经网络来估计手指的角度。近年来，由于制造能力的进步以及其在覆盖大面积接触面积方面的有效性，光学传感器阵列变得越来越普遍 [155]。传感表面的柔软度，使其能够在贴合目标表面的同时出现变形，从而检测接触区域。对接触过程中内部摄像机捕获的图像变化，进行分析。

一些研究使用了基于光学的触觉传感器和深度学习网络的数据，来估计目标在接触操作过程中的相对姿态。例如，Sodhi [173] 使用基于光学触觉传感器的数据来估计被推目标的姿态，而其他人 [180, 181] 则探索了使用这些传感器来估计抓取过程中目标的相对姿态。在 Wang [71] 的研究中，还探索了使用触觉感应进行手中物理特征探索，以实现准确的动态旋转操作。Wang [71] 还在平行夹持器上使用光学触觉传感器来训练模型，以在给定某些控制参数的情况下预测未来的旋转角度。Toskov [67] 利用触觉感知解决旋转问题，并训练递归 ANN 来估计摆动目标的状态。然后，该模型与夹持器控制器集成，以调节夹持器与目标的角度。Funabashi [34] 学习了机器人用触觉反馈抓取目标的姿势，从而能够操纵各种大小和形状的目标。这些工作展示了触觉感知和学习技术在提高手中操纵任务的准确性和效率方面的潜力。在实践中，触觉感知提供了宝贵的状态信息，而这些信息很难用其他方法提取。

手部操作转换模型的学习

去应对可行模型不可用性的常见解决方案，是从数据中学习转换模型。机器人学习问题，通常可以表述为马尔可夫决策过程 (MDP) [182]。因此，转换模型或前向模型是从给定状态 x/t ∈ X 和动作 a/t ∈ A 到下一个状态 x/t+1 的映射，使得 x/t+1 = f(x/t,a/t)。子集 X 和 A 分别是系统的状态和动作空间。此类模型通常是通过高维空间中的非线性回归获得的。通常，前向模型被描述为概率分布函数，即 P (x/t+1 |x/t , a/t )，表示转换中的不确定性。

学习用于手中操作任务的转换模型，通常涉及了解机器人状态的变化是如何由其动作引起的 [51]。在运动学已知的刚性手中，虽然一个手部转换模型通常可用解析解 [183]，但对于柔顺手或软手，很少有解析解。学习转换模型的主要工作涉及到柔顺手。对柔顺手进行建模的尝试，通常依赖于外部视觉反馈。例如，Sintov [61] 提出了一种基于数据的转换模型，用于用柔顺手进行抓握操作，其中手的状态涉及运动特征，例如执行器的扭矩和角度，以及通过视觉反馈获得的被操作目标位置。这项工作的扩展，在状态分布空间（即信念空间）中的渐近最优运动规划框架中使用了基于数据的转换模型 [42, 62]。最近，Morgan [49] 提出了一种使用基于视觉的模型预测控制 (MPC) 目标不可知操作方法，其通过一种基于能量的视角去学习柔顺手的操作模型 [184]。Wen 的工作[152] 使用深度相机估计一只欠驱动手的两根手指所抓取的部分遮挡目标姿态。虽然这项工作没有考虑如何操纵，但一项扩展工作提出了使用基于深度的 6D 姿态估计来控制对抓取目标的精确操纵 [50]。作者利用这个三指的欠驱动手机械柔顺性，并使用与目标无关的离线手模型和合成数据的 6D 姿态跟踪器。虽然不是严格意义上的过渡模型，但 Calli [23] 训练了一个模型来对转换进行分类，并在欠驱动手的抓取操纵过程中识别特定模式。通过使用视觉和动觉感知，状态和未来动作被分类为可能的模式，例如目标滑动和可能的掉落。

虽然上述方法侧重于纯视觉感知进行目标姿态估计，但最近的工作中单独使用或与视觉结合使用触觉传感器。最近的研究将非中心（allocentric）视觉感知与四个触觉模块（结合压力、磁场、角速度和重力传感器）集成在两个欠驱动的手指上 [185]。这些传感器用于训练姿势估计模型。Lamberta [161] 探索了一种基于触觉的大理石操作转换模型，该模型使用具有自动编码器架构的自监督检测器。Azulay [21] 通过使用观测模型将欠驱动手上的触觉感知映射到所抓取目标的姿势，解决了部分或完全遮挡的手中目标姿势估计问题。此外，还提出了一种 MPC 方法，仅基于观测模型的预测将所抓取目标操纵到期望的目标位置。Luo [47] 为多指灵巧的 Allegro Hand 提出了一种类似的具有 MPC 前向模型。总的来说，这些方法展示了一种潜力，使用融合触觉的外部视觉反馈去学习带不确定性的各种手部操作任务转换模型。

学习转换模型的自监督和探索

自监督和探索是学习机器人手中操作转换模型的重要技术。自监督是指从未标记的数据中学习的过程，其中学习算法能够从数据本身的结构中推断出所需的行为。这对于手中操作特别有用，因为它允许机器人了解目标的各种状态和转换，而无需明确的人工监督。另一方面，探索是指主动寻找并与环境互动以收集有用数据的过程。在手中操作的背景下，探索可以包括机器人尝试不同的抓取和操作策略，了解哪种策略最适合给定的目标和任务。通过以这种方式主动寻找并与环境互动，机器人可以通过反复试验了解目标的各种状态和转换，并利用这些知识来提高其操作性能。总之，自监督和探索可以成为学习手中操作转换的有力工具，因为它们允许机器人从自己的经验中学习并主动收集有关被操作目标及其周围环境的信息。

为机器人系统生成状态转换模型的收集过程，需要主动探索高维状态空间 [4]。常见的策略是施加随机动作 [122]，以期实现对机器人状态空间的充分和均匀覆盖。实际上，有些区域不经常访问，因此很稀疏。在诸如柔顺手 [186] 或目标投掷 [187] 之类的系统中，每个收集事件都大致从相同的状态开始，因此数据在起始状态附近密集，而在远处稀疏。因此，获取机器人系统的状态转换模型，需要耗费精力和繁琐的数据收集以及系统磨损，即转换函数 f (x/t, a/t) 难以评估。

主动采样是一种替代策略，其中采取对特定任务更具信息量的行动 [188]。然而，要获得机器人的通用模型，需要探索整个可行状态空间。贝叶斯优化是确定关键采样位置的合适工具，可以提高模型的准确性。但是，了解采样位置并不能保证能够轻松到达这些位置。到达某些状态空间区域可能需要施加复杂的操作。可以驱动系统进入这些区域进行进一步探索的正确操作，通常是未知的，特别是在数据不足的初始阶段。也就是说，需要一个好的模型才能学习一个好的模型。

基于强化学习的手中操作学习方法

强化学习 (RL) 是机器学习的主要范式之一，类似于监督学习和无监督学习。RL 模型通过最大化给定的奖励来学习在某些环境中采取最佳行动。与模型驱动学习相比，大多数 RL 算法在学习过程中收集数据。通常，学习是在模拟环境中进行的，以避免真实机器人的繁琐工作和磨损。RL 策略是将当前状态映射到最佳动作的函数，通常区分在线（online）策略和离线（offline）策略学习 [189]。这两种方法通常近似于价值函数，价值函数是针对状态和动作定义的预期累积奖励。在线策略学习方法中，数据收集由智体学习的中间策略指导。价值函数直接由策略学习。因此，必须在探索未访问的动作状态区域和利用已知区域之间保持平衡，以最大化奖励。另一方面，离线策略学习方法中，最优策略的价值函数独立于智体在训练期间进行的动作而进行学习。

迁移学习和sim-2-real问题

通常，基于 ANN 的控制器必须针对每个新任务进行大量训练才能成功执行，这需要较长的训练期和大量的计算资源。特别是对于手中操作而言，使用训练的策略对新目标执行任务可能具有挑战性。迁移学习可以分为少样本学习、单样本学习和零样本学习 [195]。少样本学习和单样本迁移学习，分别需要新任务的少量实例或单个实例来调整之前训练的模型。另一方面，零样本迁移中训练好的模型，可以立即执行训练阶段未包括的任务。因此，在少样本或更少的样本中学习和推广到新任务的能力非常有益。在手中操作中，模型的迁移通常指推广到训练中未包括的新目标 [38]。少样本和单样本迁移学习的常用方法是在不同任务、目标和手之间共享权重和数据。Funabashi [32] 展示了预训练策略的能力，该策略仅使用 Allegro hand 的三根手指执行稳定的滚动运动，然后迁移到使用所有的四根手指。事实证明，在手指形态相同的情况下，这是可能的。结果表明，可以使用从随机运动中收集的数据进行预训练，以便之后可以通过一次性迁移完成特定任务的训练。

虽然在真实机器人上训练 RL 模型可以产生非常成功的控制器 [196, 197]，但它也耗费时间和资源，或者对某些机器人造成危险。此外，它往往需要大量的人为参与。因此，模拟是一种新策略训练方法，因为它们能够快速有效地收集大量数据。虽然在模拟中进行训练是有益的，但将在模拟中训练的机器人策略迁移到真实机器人上仍然是一个挑战 [198]。与通常不确定和嘈杂的现实世界系统相比，模拟自然更加确定和简单。这种差距通常被称为模拟-到-现实问题，它会显著降低在模拟领域训练并迁移到现实世界应用领域的策略的性能 [199]。这在手中操作任务中尤其重要，因为这些任务往往大量涉及难以建模的接触动力学 [33, 200]。因此，由此产生的控制器通常对小错误和外部干扰很敏感。

弥合模拟-到-现实问题中现实差距的最常见方法是域随机化 [201]。在这种方法中，模拟中的各种系统参数不断变化，以提高对建模误差的鲁棒性。Andrychowicz [17] 和 OpenAI [18] 提出了自动域随机化 (ADR) 方法，其中模型仅在模拟中训练，可用于解决现实世界的机器人操作问题。具体来说，通过用拟人的 Shadow Hand 进行手指移动和滚动操作来解决魔方。 ADR 会自动在随机环境中生成分布。使用 ADR 训练的控制策略和视觉状态估计器表现出了显著改善的模拟-到-现实迁移。

在 Sievers 的研究中 [60]，DLR hand 的 PyBullet 模拟，用于训练仅使用触觉和动觉感知进行抓握操作的离线策略。域随机化用于将模拟-到-现实迁移到真实的手。该工作的扩展展示了零样本模拟-到-现实迁移，同时专注于 24 个目标方向 [54]。除了直接修改域随机化中的动态之外，Allshire [15] 还展示了对抓握目标施加小的随机力，以提高 TriFinger hand 抓握操作中所得策略的稳健性。最近，Handa [37] 采用域随机化方法，使用 RGB-D 感知重新调整四指 Allegro hand 中的立方体。与基于 CPU 计算的 Pybullet 和类似模拟器不同，Allshire 和 Handa 使用基于 GPU 的 Nvidia Isaac Gym 模拟器 [164]。使用基于 GPU 的模拟器可以减少计算资源和成本。

与域随机化相反，Qi [55] 使用自适应模块学习来应对模拟-到-现实的问题。该模块通过监督学习进行训练，以仅基于动觉感知来近似系统的重要属性。基于近似值和实时状态观察，训练一个 RL 策略，为多指手的手指步态采取动作。这项工作的扩展增加了视觉和触觉感知，同时还包括用于嵌入过去信号的 Transformer 模型 [56]。Qi 也使用了 Isaac Gym 模拟器，因为它在接触建模方面表现出色。然而，Isaac Gym 和大多数其他模拟器往往提供不可靠的接触力值。为了克服这一限制，Yin [74] 在四指 Allegro（即指尖、手指和手掌）手上模拟了 16 个触觉传感器，同时仅考虑接触或无接触的二进制信号。由于这种配置，经过训练的策略被证明可以成功简化从模拟-到-真实的迁移。

Episodic 重置

在现实世界中学习机器人任务通常需要足够的经验。在许多系统中，其实现通常通过手在重复 episodes 之间频繁的人为干预重置环境，例如当被操纵的目标意外掉落时。这在手中操作的情况下尤其重要，因为故障结果的不确定性很大，重置可能更复杂。消除昂贵的人为干预将改善样本收集，从而减少学习时间。Eysenbach [202] 提出了一种同时训练重置策略和任务策略的通用方法。例如，可以训练机器人操纵器在策略训练中重置环境，从而实现更自主和连续的学习过程。正如 Srinivasan [65] 所示，生成的重置策略可用作任务控制器的批评者，以辨别会导致不可逆状态的不安全任务操作，其中重置是不可避免的。具体来说，模型学习识别 shadow hand 在尝试通过滚动和手指移动来重新调整立方体方向时可能施加的动作，而不会冒着立方体完全掉落的风险。防止这些不可逆状态的发生可以提高控制器的安全性，也可以用来为前向控制器引入一个课程。

避免不可逆状态的另一种方法，是添加专门设计用于仅在机器人状态与此类不可逆状态密切相关时进行干预的反应控制器 [31]。Falco [31] 在基于视觉感知的目标抓握操纵中使用了柔顺假手，并添加了连接到触觉传感器的反应控制器。反应控制器的目标是避免目标滑落。因此，可以训练名义控制方法，其目标不仅是成功完成给定的任务，而且还要尽量减少反应控制器的干预。

虽然 episodic 重置通常被认为是一种负担，但它可以被视为一种机会。在训练多任务能力以进行手中操作时，一项任务失败可能导致需要抓握的一个重置。重置可以被视为另一项操作任务，而不是使用人工干预或额外的控制系统 [36]。例如，尝试滚动动作失败会导致错误的目标姿势，可能需要学习滑动任务来修复姿势。因此，成功或失败告终的任务训练都可以链接到进一步其他任务的学习。这样会产生一种无需重置的学习方案。

多-网络架构

多-网络架构，例如演员-评论家（AC） [203] 或教师-学生（TS）[204]，通常有助于改善学习过程。在更常见的演员-评论家（AC）结构中，演员网络（actor network）被训练为策略，而评论家网络（critic network）被训练来估计价值函数。这种结构试图应对单网络结构固有的弱点。也就是说，仅演员（actor- only）模型往往会产生高方差和收敛问题，而仅评论家（critic- only）模型具有离散化的动作空间，因此无法收敛到真正的最优策略。另一方面，在教师-学生（TS）架构中，知识蒸馏可以将知识从笨拙而复杂的模型迁移到较小的模型。因此，教师模型（teacher model）是一个已经学会采取最佳行动的专家智体，而学生模型（student model）是一个在老师的指导下学习做出最佳决策的新手智体。

Chen [24–26] 采用非对称师生训练方案，教师使用完整和特权状态信息进行训练。然后，将教师策略蒸馏为学生策略，该策略仅基于有限的实际可用信息采取行动。使用模拟的 shadow hand 在 EGAD [205] 或 YCB [206] 基准目标集的一个训练目标重定向任务的策略，并在另一个进行测试。结果显示向新目标的零样本迁移。师-生（TS）方法在训练期间利用特权信息，而演员-评论家（AC）方法通过两个模型之间的持续交互来管理学习。这已通过近端策略优化 (PPO) 算法得到证明，该算法用于手内旋转平行夹持器中夹持的刚体，使用惯性力来促进相对运动 [68]。此外，将演员-评论家（AC）方法与基于模型的方法相结合可以提高学习效果。学习的模型可用于模型预测控制器中，以减少由收集数据引起的模型偏差。这已通过一只欠驱动的手来证明，它可以执行手指步态 [207] 和目标插入 [22]。最近，Tao [66] 提出将重定向任务中的多指手视为一个多智体系统，其中每个手指或手掌都是一个智体。每个智体都有一个演员-评论家（AC）架构，而只有评论家可以全局观察所有智体。另一方面，演员只能局部观察相邻智体。这样，手就没有集中控制，可以适应变化或故障。

在 Li [46] 提出的另一种多模态架构方法中，手中操作所需的各种控制任务被划分为多个分层控制级别。这允许为每个任务使用更专业的工具。在较低级别，传统的基于模型控制器可以稳健地执行不同的操作原语。在更高层次上，学习的策略协调这些基元，使三指手能够在有重力的平面环境中稳健地重新调整抓握目标的方向。Veiga [70] 采用了类似的方法，其中低级控制器使用触觉反馈保持稳定的抓握。在更高层次上，RL 经过训练，可以使用多指灵巧手执行抓握操作。

课程学习

通常，直接使用来自整个分布的数据训练模型可能会产生性能不足的问题。因此，课程学习 (CL) 是一种训练策略，其中模型逐渐暴露于越来越高的任务难度，以提高学习效率 [208]。这样的过程模仿了人类课程中有意义的学习顺序。添加 CL 来指导必要技能的发展可以帮助策略学习往往失败率很高的困难任务 [25]。在这个例子中，研究人员根据成功率修改模拟中的重力行为，以帮助学习依赖重力的操作任务。这种方法允许机器人首先成功学习一项技能，然后转向越来越难、越来越准确的问题，慢慢达到实际所需的技能。Azulay [22] 训练了一个演员-评论家（AC）模型，将目标插入形状孔中，同时用柔顺的手进行抓握操作。这项工作展示了基于目标的 CL，其中首先将简单目标引入机器人，然后再引入更复杂的目标。CL 的其他用途，可以包括使用奖励塑造来指导解决方案搜索的探索阶段 [15]。这项研究表明，通过使用特定奖励函数作为先验，将模型直接引导到特定区域可以改善早期探索。然而，这些区域可能不包含实际可行的解决方案，并且可能需要在学习过程的后期阶段减少奖励函数的影响。

触觉信息

虽然视觉感知是强化学习中一种重要的反馈方法，但它在各种环境中可能非常有限，而且目标经常被手遮挡。另一方面，触觉感知可以直接获取有关目标状态的信息。然而，来自触觉感知的数据往往是模棱两可的，关于目标的信息是隐含的。然而，触觉的加入得到了广泛的关注，因为它可以提高学习率。例如，在 Korthals 的工作中[43]，shadow hand 的触觉信息提高了采样效率，加速了学习过程，从而显著减少了获得类似性能的 epoch 数。Jain [39] 表明，当目标被严重遮挡时，触觉传感器的集成会提高学习率。这在各种操作任务中得到了证明，包括用模拟拟人手握笔。Melnik [209] 比较了多种传感方法，包括连续与二进制（即触摸或无触摸）触觉信号，以及较高与较低的传感分辨率。这项比较研究的结果表明，与没有此类信息相比，使用触觉信息对学习过程有益。然而，产生最佳结果的具体方法取决于学习的操作任务 [48]。

Melnik [209] 直接使用触觉信息作为状态向量的一部分，而 Funabashi [33, 210] 使用了没有视觉感知更高分辨率的传感阵列。该模型通过考虑传感器的相对空间定位来应对输出触觉信息增加的维度。同样，Yang [73] 在多指手上使用触觉阵列。该阵列使用图神经网络嵌入，它在操作过程中提供目标状态并用于无模型 RL。Khandate [40] 实现了无模型 RL，通过多指灵巧手的手指步态重定位目标，同时仅使用运动和触觉感知。在一项扩展工作中，Khandate 提出使用基于采样的运动规划来采样操作空间的有用部分并改进探索 [41]。触觉感知提供了有价值的信息，通常可以完全取代视觉感知。然而，基于触觉感知的策略通常需要大量的现实世界经验才能达到足够和普遍的性能。

总之，近年来，机器人手中操作 RL 领域的研究正在发展并取得越来越多的成功。虽然在特定任务中表现出色，但 RL 策略在多任务场景中仍然表现不佳，并且难以通过零样本或少样本学习进行推广 [211]。目前面临的主要挑战包括控制具有大量感官信息的高度灵巧手、将在模拟中学习的模型迁移到真实的机器人系统，以及将对已知目标的特定学习任务迁移到其他任务和未知目标。使用多级控制结构、域和动态自适应，以及基于模型和无模型方法的结合来获得两者的优势，正在取得重大进展。虽然强化学习（RL）取得了令人兴奋的进展，但该领域仍在继续探索数据效率和对新领域的适应性的挑战。

基于模仿学习的手中操作方法

从头开始为真实机器人训练强化学习策略通常非常耗时，而且由于缺乏足够的数据，通常不可行 [212]。应对这些挑战的一个突出方法是模仿学习 (IL)。IL 不是在没有先验知识的情况下学习技能，而是旨在从专家演示中学习 [213, 214]。然后可以通过某些学习框架（如强化学习）为智体优化来自专家的先验知识。虽然 IL 通常被认为是强化学习的一个子领域，但由于其重要性和广泛的工作，单独在此介绍。

IL 可以分为两种主要方法：行为克隆 (BC) 和逆强化学习 (IRL) [215]。在 BC 中，策略以监督学习的方式进行训练，使用专家数据将状态映射到动作。IRL 从专家数据中提取奖励函数，训练具有相同偏好的智体 [216]。

在 BC 和 IRL 中，策略都是根据一些先验知识进行学习的。这与 RL 形成对比，RL 的策略是基于智体自身的经验从头开始学习的。因此，IL 需要一个初始的数据采集过程。首先，从专家的演示中收集数据。演示可以通过各种媒介获取，例如记录人体运动或记录机器人在手动慢跑过程中的本体感受。在下一步中，IL 通常涉及学习策略以直接模仿演示 (BC) 或从数据中提取特征 (IRL)。最后一步是通过传统的 RL 进一步完善策略。从 RL 的角度来看，IL 通常通过使用专家策略的近似值来引导学习过程，从而减少学习时间。

数据获取

在执行所需任务时，从专家演示者那里收集数据。通过一组传感器记录专家的动作，以便学习智体以后可以观察并学习模仿。有各种方法来演示和记录动作，它们的选择可能会影响学习过程。

一种数据采集方法是使用指定工具（例如遥控器）在整个任务过程中遥操作机器人 [219]。然而，远程控制在灵巧的机械手的遥操作中是不自然的，也是完全不可行的。Arunachalam [19] 采取了一种更自然的方法，使用视觉手势估计模型（即骨架）在重定位目标期间近似人手上的关键点。用户还可以使用 VR 套装来获得机器人的视点 [20]。在这些示例中，通过在数据中使用更简单的最近邻搜索来学习拟人化机械手的策略。在演示数据中具有最接近当前状态的状态的动作将被施加。类似地，Kumar [44] 使用专家用户佩戴的 CyberGlove 记录虚拟人形机械手在遥操作过程中的本体感受状态。使用手套，可以记录关节角度以及触觉信息。然后使用记录的任务来训练和评估五指灵巧手的重定位任务中手部操作。以类似的方法，Wei & Xu [220] 设计一种可穿戴机械手用于 IL 遥操作，以便专家在演示过程中获得触觉反馈。

Gupta [217] 采用了另一种方法，他们只收集有关被操作目标运动的信息，而忽略了人类专家的运动。因此，在训练中为每个初始状态选择最相关的演示时，会学习以目标为中心的策略。在另一种方法中，演示者通过接触和推动机器人来手动移动机器人以执行任务 [45, 59, 218]。在演示过程中，机器人从关节处收集运动数据。虽然这种方法很简单，但它通常应用于一个具有单个串行运动链（kinematic chain）的机械臂。人类同步移动灵巧且多接触的机械手来执行复杂的手中操作任务是相当不可行的。然而，使用非灵巧手执行更简单的任务是可能的，而作者还没有找到先前的研究成果。

学习过程

从演示中学习的过程通常由 BC 或 IRL 进行 [221]。在 BC 中，智体需要直接采取在演示中观察的专家策略 [19]。智体将在类似状态下采取专家采取的行动。因此，演示数据通常以易于学习的状态-动作对形式记录。然后，以监督学习的方式学习策略。然而，状态-动作对可能难以从例如视频数据中获得。为了解决这个问题，Radosavovic [57] 提出仅状态模仿学习 (SOIL) 方法，其中可以训练逆动力学模型来提取基于从视频中感知状态变化而选择的动作。逆动力学模型和策略是联合训练的。SOIL 能够从来自不同但相关设置的演示中学习。虽然不是 IL 方法，但 Yuan [76] 将经过训练的教师策略视为专家，并使用 BC 将其蒸馏给学生，以训练具有视觉和触觉的徒手操作。在另一项工作中，BC 用于控制一种独特设计的夹持器，其指尖上有驱动滚动轮 [75]。演示数据是从手工制作的控制器中提取的，并显示可以提高性能。

Rajeswaran [58] 比较了 RL 解决复杂操作任务的方法，包括结合和不结合人类演示。作者建议将演示纳入操作任务的策略梯度方法中。所提出的演示增强策略梯度 (DAPG) 方法使用 BC 进行预训练以初始化策略，并使用增强损失函数来减少对演示的持续偏见。与从头开始的 RL 相比，DAPG 策略可以获得更像人类的动作，并且更加稳健。此外，学习过程的样本效率更高。Jain [39] 扩展了这项工作，探索了演示数据对视觉运动策略的贡献，同时不需要了解数据的来源。结果表明，演示可以提高这些策略的学习率，通过几百条专家演示轨迹可以有效地训练这些策略。此外，研究发现，对于遮挡程度较高的任务，触觉感知可以实现更快的收敛和更好的渐近性能。虽然 Rajeswaran 和 Jain 仅在模拟中演示了该方法，但 Zhu [197] 演示了在真实机器人上将 DAPG 用于复杂的灵巧操作任务。结果表明，通过结合人类演示，训练时间从 4-7 小时减少到 2-3 小时。

由于需要付出巨大努力才能收集足够的演示数据，因此很少有关于手中操作的研究使用 BC。虽然 BC 实现简单，但通常需要大量数据才能获得足够的性能 [222]。另一方面，IRL 直接学习已演示的专家策略奖励函数，该策略优先考虑某些动作 [216]。IRL 学习专家的底层奖励函数，这是对任务的最佳定义。一旦获得了奖励函数，就可以使用标准 RL 算法训练最佳策略以最大化这种奖励。虽然 IRL 的一般工作广泛用于各种机器人应用，但将 IRL 与手中操作相结合的工作并不多。一项工作使用期望行为的专家样本展示了奖励函数的 IRL 近似值 [52]。然而，作者认为，学习的奖励函数偏向于演示的动作并且无法推广。随机化和规范化被用来最小化偏差并实现不同任务之间的泛化。

虽然不是直接的 IRL，但 Deng & Zhang [29] 利用奖励塑造来改善灵巧手手中操作的 RL 训练。通过观察人类演示者的双手协同作用，构建了一个有限的低维状态空间。使用奖励塑造可以包含多个层次的知识，从标准的外在奖励到基于双手协同作用的奖励，以及基于不确定性的奖励函数，旨在指导对状态空间的有效探索。通过模拟展示了使用所有三个奖励函数进行学习以改进学习。IRL 在解决手中操作问题方面使用较少，可能是因为它倾向于提供行为不当的奖励函数和不稳定的策略 [223]。

IL 也被提议用于不使用 RL 的手中操作。Solak & Jamone [63] 提出使用动态运动原语 (DMP) [224]。该方法表明，多指灵巧手可以根据单个人类演示执行任务，同时对初始或最终状态的变化具有鲁棒性，并且与目标无关。然而，前一种特性可能会导致目标滑动并损害抓握稳定性。因此，一项扩展工作提出了对目标的触觉探索，使得操作由表面法线和接触处的摩擦力决定 [64]。

虽然传统的 IRL 在广泛的任务中表现出色，但它只提供了一个隐式解释专家行为的奖励函数，但没有提供指示采取什么行动的策略。因此，智体仍然必须通过 RL 训练来学习策略，这是一个相当昂贵的过程。为了解决这个问题，提出了生成对抗模仿学习 (GAIL) [225]，将 IL 与生成对抗网络 (GAN) [226] 相结合。与 GAN 类似，GAIL 包含一个生成器和一个鉴别器。生成器试图生成与演示相匹配的策略，而鉴别器则试图区分来自生成器的数据和原始演示数据。因此，GAIL 的训练就是最小化两者之间的差异。因此，GAIL 能够从演示数据中提取策略。最近，有人提出使用 GAIL 进行灵巧的手中操作 [72]。事实证明，该方法的效果明显优于 BC 或直接 RL 训练。GAIL 有潜力改善和加快更复杂的手中操作任务的策略学习，值得进一步探索。

手中操作是机器人技术中最具挑战性的课题之一，也是机器人应用可行性的重要方面。传统的分析方法很难估计目标属性和嘈杂的感官信息。由于使用这些传统方法进行手中操作已达到瓶颈，研究人员正在利用深度学习和强化学习方面的进步来解锁新的灵活性水平。
如表所示对强化学习、模仿学习和基于模型的方法进行比较：囊括对复杂和嘈杂系统（例如配备各种传感器的灵巧机械手）进行建模的能力，如数据效率、sim-2-real迁移、软机器人手、触觉感知、演示中学习和任务泛化。

请添加图片描述