手术机器人 Transformer (SRT):针对手术任务的模仿学习

24年7月来自JHU和斯坦福大学的论文“Surgical Robot Transformer (SRT): Imitation Learning for Surgical Tasks”。

探索的任务是,是否可以通过模仿学习在达芬奇机器人上学习外科手术操作任务。然而,达芬奇系统提出了独特的挑战,阻碍了模仿学习的直接实施。值得注意的是,由于关节测量不精确,其正向运动学不一致,而单纯使用这种近似运动学数据训练策略往往会导致任务失败。为了克服这一限制,引入一个相对动作公式,用其近似运动学数据能够成功地进行策略训练和部署。这种方法的一个有希望结果是,包含近似运动学的大量临床数据存储库可以直接用于机器人学习,而无需进一步修正。成功执行三个基本外科手术任务,展示了研究结果,包括手术的组织操作(tissue manipulation)、针头处理和打结(knot-tying)。

最近,大规模模仿学习在创建用于操作任务的通才系统方面显示出巨大的前景 [1]。该领域的先前研究主要集中在学习日常家务活动。然而,一个尚未得到充分探索且潜力巨大的领域是外科手术领域,尤其是使用 Intuitive Surgical 的达芬奇机器人。这些机器人已在全球部署,具有巨大的扩展潜力:截至 2021 年,67 个国家/地区使用 6,500 台达芬奇系统进行了超过 1000 万例手术,其中 55,000 名外科医生接受了该系统的培训 [2]。通常,视频和运动学数据会被记录下来以进行术后分析,从而产生大量的演示数据。利用如此大规模的数据对,于构建用于自主手术的通才系统,具有巨大的潜力 [3]。

然而,在达芬奇上进行机器人学习面临着独特的挑战。由于基于电位计的关节测量、滞后以及机构的整体灵活性和松弛性,硬件的正向运动学不准确 [4]。这些限制,导致机器人无法执行简单的视觉伺服任务 [5]。单纯地使用这种近似运动学数据训练策略,几乎总会导致任务失败。例如,一种训练输出绝对末端执行器姿势的策略(这是训练机器人策略的常用思路)在这项研究中探索的所有任务中都取得了接近于零的成功率,包括手术中的组织操纵、针头拾取和交接、以及打结。如图所示:(左)达芬奇手术研究套件 (dVRK) 系统,配备了手术内窥镜和腕部摄像头;(右)学习三项基本手术任务,包括提起手术的组织(即组织回缩)、拾针和交接、以及打结,这些都是最常见的手术任务。为了实现机器人大规模学习,必须设计一种能够有效利用这种近似运动学数据的策略。

请添加图片描述

如图所示,本文提出了一种策略设计,它只将图像作为输入,并输出双臂的相对姿势轨迹。将策略动作建模为相对运动,是使机器人学习在 dVRK 上发挥作用的关键因素。

请添加图片描述

考虑如图所示的 dVRK 系统,该系统包括机器人和用户交互的远程控制台。dVRK 具有内窥镜(endoscopic)摄像机操纵器 (ECM) 和两个患者侧操纵器 (PSM1、PSM2),它们共享同一个机器人底座。每条手臂都是被动的设置关节 (SUJ) 和主动的电动关节的顺序组合。由于仅使用电位计进行关节测量,被动关节非常不准确。主动关节同时使用电位计和电机编码器,从而提高了精度。然而,一般来说,在所有关节中使用电位计会导致手臂的正向运动学不准确,甚至误差高达 5 厘米 [4]。

请添加图片描述

目标是通过模仿学习来学习外科手术操作任务。鉴于机器人的正向运动学不准确,选择合适的动作表示至关重要。为了说明这一点,研究三种动作表征:以相机为中心表征、以工具为中心表征和混合-相对表征,如图所示。以相机为中心的方法作为基线,突出了将动作建模为末端执行器绝对姿势的局限性。以工具为中心的方法将动作建模为相对运动来提供改进的公式,从而提高成功率。混合-相对表征方法相对于固定参考系建模平移动作,进一步改进了以工具为中心的方法,更提高平移运动的准确性。

请添加图片描述

为了训练策略,用带 transformers 的动作分块 (ACT) 模型 [23] 和扩散策略 [64]。这些策略使用内窥镜和腕部摄像机图像作为输入进行训练,这些图像均缩小为 224 × 224 × 3 的图像大小。手术内窥镜图像的原始输入大小为 1024 × 1280 × 3,腕部图像为 480 × 640 × 3。由于 dVRK 的设计限制,运动学数据通常不一致,因此不像其他模仿学习方法那样提供运动学数据作为输入。策略输出包括双臂的末端执行器 (delta) 位置、(delta) 方向和下颌角度。

对于 ACT,主要修改包括更改输入层,接受四幅图像,其中包括左/右手术内窥镜视图和左/右腕部相机视图。输出维也经过修改,生成末端执行器姿势,相当于每只手臂的 10 维向量(位置 [3] + 方向 [6] + 下颌角度 [1] = 10),因此两个手臂的向量总数为 20 维。方向采用 [21] 中的 6D 旋转表示建模,其中 6 个元素对应于旋转矩阵的前两列。由于网络预测可能不会生成正交向量,因此执行 Gram-Schmidt 过程将它们转换为正交向量,并对两个向量进行叉积以生成旋转矩阵的剩余第三列。对于扩散策略,进行类似的修改,例如适当更改网络的输入和输出维度。

在数据收集过程中,机器人按照下图所示的参考配置进行设置。在此配置下,收集了 224 次手术中组织操纵试验、250 次针头拾取和交接试验以及 500 次打结试验,所有这些试验均由单个用户在多天内收集。在所有实验中,使用模拟人体腹部的圆顶,将手臂和内窥镜粗略地放置在使用相同孔的大致相似位置。由于孔比内窥镜和工具轴尺寸大得多,因此放置位置只是近似的,必须通过移动设置关节将工具手动放入孔中。

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值