25年3月来自天津大学的论文“AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI”。
在开放世界环境中的导航和操控,仍然是具身人工智能中尚未解决的挑战。商用移动操控机器人的高成本,严重限制其在现实场景中的研究。为了解决这个问题,本文提出 AhaRobot,这是一种低成本、完全开源的双臂移动操控机器人系统,其硬件成本仅为 1,000 美元(不包括可选的计算资源),不到流行移动机器人成本的 1/15。AhaRobot 系统由三个组件组成:(1)一种主要由现成组件组成的新型低成本硬件架构,(2)一种集成双电机间隙控制和静摩擦补偿以提高操作精度的优化控制解决方案,以及(3)一种简单的远程遥操作方法 RoboPilot。其使用手柄控制双臂和踏板进行全身运动。遥操作过程负担低且易于操作,就像驾驶一样。RoboPilot 专为具身场景中的远程数据收集而设计。实验结果表明,RoboPilot 显著提高复杂操作任务的数据收集效率,与使用 3D 鼠标和领导者-追随者系统的方法相比,效率提高 30%。它还擅长一次性完成极长视界的任务。此外,AhaRobot 可用于学习端到端策略并自主执行复杂的操作任务,例如插入笔和清洁地板。
机器人操作 [1]、[2]、[3]、[4]、[5] 和导航 [6]、[7]、[8] 方面的最新进展表明,具身人工智能取得了重大进展。日常环境中的许多任务,例如烹饪和打扫房间,都需要整个身体的协调和双臂的灵巧使用。因此,双手移动机械手已广泛应用于具身任务 [9]、[10]。然而,以前的研究硬件面临两个问题:成本高和操作空间有限。双手移动机器人通常价格昂贵,研究实验室难以负担,平均成本为 30,000 美元,这对研究人员进入该领域构成重大障碍。一些硬件平台仅限于桌面操作或可能缺乏足够的工作空间(例如到达地面),这对在日常环境中部署它们提出了新的挑战。
使用双手移动机器人进行模仿学习,也对遥操作数据收集提出了更高的要求。人类操作员必须同时控制双臂并操控整个身体,以便在各种场景中完成复杂的远程任务,其复杂性超过了桌面操作。一种流行的方法是视觉方案,例如使用虚拟现实 (VR) 设备 [11]、[12]、[13]。该解决方案需要投资 VR 设备,而且设备的重量使其不适合长期遥操作。它还需要对基础控制器进行额外调整,以实现对移动机器人的完全控制。使用两个 3D 鼠标 [14] 或操纵杆是一种类似的替代方法,但它很难进行全身遥操作。另一种方法是领导者-跟随者方案 [9]、[1]、[15]、[16]、[17]、[18],它涉及构建具有与目标机械臂相同关节配置的附加臂来捕获关节角度数据,需要额外的电机或编码器。然而,像Mobile Aloha这样的工作通常需要手动操作机器,无法进行远程控制,并且在处理极远距离的操作时会遇到困难。
为了解决这个问题,推出 AhaRobot,一款低成本开源双手移动机械手,基本预算为 1,000 美元。如图展示 AhaRobot 的核心配置和系统:
该设计遵循四个关键要求:
1)经济实惠:机器人的配置和组件选择应针对成本效益进行优化;
2)全身移动性:导航到不同位置并在不同高度执行任务;
3)最小占用空间:紧凑的设计便于在狭窄空间内移动;
4)无需现场协助:完全远程恢复故障。
如图所示几个机器人平台在成本、功能等方面的比较:
a)形态:精心设计的机械结构对于以经济高效的方式完成任务至关重要。如上图所示,该机器人具有支撑其上身的升降轨道、带有灵巧手腕的 SCARA 类手臂以及差速驱动移动底座。
起重能力:对类似于 Mobile Aloha 结构的实证评估表明,缺乏起重自由度通常会导致无法恢复的故障,例如物体从机器人的抓握中滑落。这些故障通常需要现场人工干预。为了解决这一限制(要求 2 和 4),在 AhaRobot 中加入升降自由度。虽然丝杠在精确定位和负载能力方面表现出色,但它们有限的移动速度使其不适合动态任务。相反,采用皮带驱动的滑轨,它也是机器人的上身。
SCARA 类臂:增强机械臂负载和操作范围的主要挑战在于高惯性和重力负载,这要求肩部和肘部关节具有更大的扭矩密度。为了缓解这些挑战,实施水平臂配置。这种设计与前面描述的升降机制相结合,最大限度地减少重力对关节的影响,从而降低了成本(要求 1)并简化控制算法。此外,水平臂配置允许手臂在待机或移动期间折叠并缩回身体,实现最小空间占用(要求 3)。
双电机关节:受人体关节生物力学 [39] 的启发,依靠两组肌肉实现零间隙运动,开发双电机设置。关节由低成本的 Feetech STS3215 电机驱动,价格为 15 美元(要求 1),其特点是高速直流电机与变速箱配对,提供 1:345 的齿轮比和 35 kg·cm 的最大扭矩。采用模块化设计,便于维修。通过在控制算法中通过两个伺服器施加适当的偏置张力,机械臂实现更高的精度。
差速驱动移动底座:机器人采用双轮差速驱动底座(要求 2)。机器人前部安装两个BLDC电机,后部安装万向轮,可原地旋转(要求3)。底座采用铝型材构造,可牢固连接机器人主体,避免CNC制造或铸造的高成本(要求 1)。此外,底盘的前后距离已最小化,将清扫区域限制在50厘米半径内,并降低转弯时发生碰撞的风险。
b)感知:机器人配备三个摄像头,一个安装在头顶,提供环境全景视图,两个安装在左右手腕上,提供物体接近和抓取的信息。所有摄像机的分辨率均为640×360,帧速率为30 Hz。此外,不同高度的遥控操作需要适应性的摄像机视角。为了应对这些挑战,在机器人的头部安装 2 自由度云台,实现宽阔且可调的视野。对于本体感受,每个关节都集成高精度磁编码器,分辨率为每转 4096 个计数。底座电机配备霍尔效应位置传感器,分辨率为每转 64 个计数。此外,升降滑块底部安装一个光电开关,用于在上电初始化或步进电机失步后重置其位置。
c) 计算和供电:为实现端到端自动化操作并支持离线模型推理,AhaRobot 配备高规格的计算资源。它配备一台售价 800 美元的 Mini-ITX 尺寸计算机,配备 Intel i5-12700KF CPU 和 NVIDIA RTX4060 GPU。在许多任务中,可以轻松地用更便宜的板载芯片(如 NVIDIA Jetson Orin)替换它,以进一步降低成本。集成五个 ESP32 微控制器模块,用于管理头部、手臂和升降滑块上的电机的运动规划(加速/减速曲线)和 PID 控制。底座上安装一个 ODrive 3.6 控制器,用于控制两个 BLDC 电机。机器人在 ROS 2 Humble 系统上运行,方便不同模块之间的通信。ESP32 和 ODrive 分别通过 USB-TTL 和 USB-CAN 与计算机通信。机器人由 20 Ah/24 V (294 Wh) 锂聚合物电池供电,为执行器供电。此外,还使用 1 kWh 220 V Jackery 户外电源为计算机供电,实现无线操作。为了平衡机器人,计算和电源模块都安装在机器人的后部。安全功能包括紧急停止机制,可立即关闭系统。
核心参数如下:
采用低成本组件可能会导致制造精度低于预期。此外,这些电机的高减速比和有刷设计会导致很大的摩擦。这些限制妨碍机械臂末端执行器的精确控制,使机器人无法完成精细的任务。为了缓解这些限制,开发一种双电机协同控制方法。其方法集成双电机反向驱动间隙控制和静摩擦补偿。系统的控制框图如图所示。
双电机反向驱动齿隙消除:由于制造限制,基于齿轮的传动减速系统经常受到齿隙的影响。齿隙会在齿轮方向切换时引入滞后,从而显著降低系统的定位精度。在高增益条件下,这种滞后会导致系统振荡,进一步影响性能。其提出一种方法,将两个电机的输出轴直接连接,并向每个电机施加偏置扭矩。通过使电机与相反的齿轮面啮合,这种方法可以有效消除齿隙。此外,将前馈齿隙偏置电压项 u_b 纳入控制环路,以进一步提高系统稳定性和性能。比较一下启用和禁用模块的性能。结果(图 a)通过记录安装在电机上的位置传感器报告的实际位置说明方波目标的跟踪。当禁用反驱动间隙消除模块时,由于存在间隙,关节会在目标点周围出现振荡。该方法成功抑制振荡,从而提高定位精度。
通过电机抖动进行静摩擦补偿:摩擦模型结合库仑和粘性元素[40]。低成本电机通常表现出较高的库仑摩擦 τ_s,当位置误差保持最小时,控制器无法产生足够的扭矩来驱动电机,从而引起持续的稳态误差。缓解此问题的常用方法是引入积分控制器。然而,积分项的积累需要时间,并且由于通信时间等限制,PID 控制周期频率相对较低(66 Hz)。因此,引入一种简单的技术,即在输出中添加前馈项 u_d = (−1)^⌊t/T⌋* u_b,其中 T 表示 PID 回路的循环时间,u_b 是为将电机保持在接近阈值状态而设置的前馈项。
使用微动跟踪功能进行消融实验,采用阶梯轨迹,增量为 0.175 度——是电机最小分辨率的两倍。结果(上图 b)表明,在启用电机抖动的情况下,系统成功跟踪增量目标调整,而禁用电机抖动的控制组无法跟踪目标。
开发一种简单实用的具身智能遥操作方法至关重要。目标是设计一种双臂移动机器人的遥操作系统,该系统构造简单、经济高效、足够准确,同时支持完全遥操作——实现“每个人都可以在餐桌上遥操作机器人”的愿景,并释放数据众包的潜力,以缓解具身智能的数据稀缺问题。RoboPilot 系统由两个被动手柄、四个霍尔效应踏板、一个摄像头和一个 ESP32 微控制器组成。单个工作站的构建成本仅为 50 美元,该系统无需笨重的头戴式显示器,可实现长时间和完全远程的遥操作。典型的远程操作工作站如图所示。两个手柄捕捉操作员左右手的 6 自由度姿势,然后通过逆运动学将其重定位到机械臂的末端执行器。四个霍尔踏板分别控制机器人底座的运动、左右手爪的张合以及升降滑块的大幅运动。
26 面运动捕捉手柄:用 AprilTag [41] 捕捉手柄的 6 自由度姿势。一种常用方法是构建一个 6 面立方体,但具有共面点的透视 n 点 (PnP) 算法表现出姿势模糊性 [42],尤其是当标记(markers)与相机平面平行时。此问题导致估计的旋转出现峰值,从而导致准确度低。为了解决这一限制,设计一种使用 26 面多面体的新标记配置。当面向相机时,多个标记占据非共面位置,确保相机可以从任何视点同时检测到至少三个非共面标签。将标签放在旋转平台上并进行三次完整的旋转。然后,测量位置和旋转误差。如图所示,实验结果表明,26 面多面体,明显优于传统的 6 面立方体,旋转误差减少 80%,平移误差减少 79%,平均定位精度达到 3 毫米。
用于运动的踏板:采用四个霍尔效应踏板来捕获踏板压力数据。踏板支持两种模式:行走模式和操作模式。模式切换通过键盘快捷键控制,踏板在两种模式下提供双重功能。为了确保在基座运动期间稳定地抓取物体,可以使用指定的键盘键锁定夹持器的位置。
基于 Web 的遥操作界面:为操作员开发一个基于 Web 的遥操作客户端。26 面多面体的捕获和姿势估计完全在客户端使用 WebAssembly 和 OpenCV.js 进行处理,确保操作员的隐私和数据安全。四个踏板通过 WebSerial 传输数据,由 ESP32 微控制器控制。键盘用于发出特定命令,例如重置机械臂的位置、切换踏板模式或锁定夹持器。机器人三个摄像头的视频流通过 WebRTC 传输到 Web 界面,而手柄的 6-DoF 姿势数据以及键盘和踏板输入则通过 WebRTC 的 DataChannel 发送回机器人。