通过观看学习:基于视频机器人操作的学习方法综述

24年2月来自Oklahoma州立大学的论文“Learning by Watching: A Review of Video-based Learning Approaches for Robot Manipulation”。

多样化、无偏见的数据集稀缺,阻碍了机器人学习操作技能。虽然精选的数据集可以有所帮助,但在普遍性和现实世界迁移方面仍然存在挑战。同时,大规模的“野外”视频数据集,通过自监督技术推动了计算机视觉的进步。最近的研究将其转到机器人技术方面,探索了通过被动观看大量在线视频来学习操作技能。这种基于视频的学习范式,显示出有希望的结果,它们提供了可扩展的监督,同时减少了数据集偏差。
本综述回顾视频特征表示学习技术、目标affordance理解、3D 手/身体建模和大规模机器人资源等基础,以及从不受控制的视频演示中获取机器人操作技能的新兴技术。讨论仅通过观察大规模人类视频来学习如何提高机器人操作的泛化性和采样效率。该综述总结了基于视频的学习方法,分析了它们相对于标准数据集、综述指标和基准的优势,并讨论了计算机视觉、自然语言处理和机器人学习交叉领域的这一新兴领域所面临的挑战和未来方向。

与计算机视觉 (CV) 和自然语言处理 (NLP) 等领域相比,机器人领域拥有大量高质量和多样化的数据集,而这些领域在各种任务中此类数据集的可用性方面则面临重大限制。高质量数据的稀缺性在多方面阻碍了机器人技术的进步。为了应对这一挑战,研究人员提出了基于少样本学习和多任务学习等技术的算法。虽然这些方法在缓解数据稀缺问题方面显示出希望,但它们仍然依赖大量高质量数据来实现有效的任务泛化。

同样,经典的机器人规划和操作方法通常需要对世界和智体动态进行详细建模,这进一步限制了它们的可迁移性和可泛化性。尽管人们努力将深度强化学习 (RL) 用于运动规划 (Qureshi,2020) (Fishman,2023) 和操作 (Rajeswaran,2017) (Zhu,2019),但这些方法遇到了分布变化和可泛化性降低等挑战。最近基于行为克隆 (BC) (Torabi,2018a) 的模仿学习方法 (Jang,2022) (Qin,2022)、(Shridhar,2022) 也已成为从最少的演示中学习操纵技能的潜在解决方案。然而,与深度强化学习方法类似,这些方法很难在多样化和未经整理的数据集中学习操纵技能。

近年来,在整理用于各种机器人任务的大规模高质量数据集方面取得了重大进展(Brohan,2022;Zitkovich,2023;Padalkar,2023),(Walke,2023;Dasari, 2019;Fang, 2023)类似于 ImageNet 数据集在计算机视觉 (CV) 领域的影响(Russakovsky,2015)。虽然这标志着向前迈出了积极的一步,但这些数据集在真实环境的代表性方面往往存在局限性,因为它们通常是在受控环境中收集的。尽管这些数据集具有优势,但它们也存在潜在的缺点,包括有限的泛化性、偏见(Gupta,2018)、高成本以及关于具身智体与人类互动的道德问题。
相比之下,“野外”数据集在计算机视觉的成功中发挥了关键作用(Goyal,2021;Tian,2021;Caron,2019;Miech,2020;Cui,2022),尤其是随着自监督学习的兴起。在机器人领域,各种研究都采用了这种方法,通过从 YouTube 等平台的视频中学习来训练具身智体以获得操作技能。这些努力已经展示了令人印象深刻的性能改进,展示了增强的泛化性。

如图所示本综述的总体结构:

请添加图片描述

相关的综述论文:

2022年论文 “Review of Learning-Based Robotic Manipulation in Cluttered Environments” 解决了与致密杂乱环境中机器人操作相关的问题,特别强调采用深度强化学习 (deep RL) 技术来应对这些挑战。该综述将杂乱环境中基于深度 RL 的机器人操作任务分为三种不同的类型:目标移除、组装和重排,以及目标检索和分离任务。

2009年论文“A survey of robot learning from demonstration”和2020年论文“Recent Advances in Robot Learning from Demonstration” 探索了机器人从演示中学习 (LfD),并讨论和分类了从远程操作到模仿等各种收集此任务数据的方法。

2021年论文“Reinforcement learning for pick and place operations in robotics: A survey”对强化学习在拾取和放置操作中的应用进行综述,批判性地回顾每种方法的优缺点。

2021 年论文“A review of robot learning for manipulation: Challenges, representations, and algorithms” 深入研究了学习机器人操作技能的方法和算法。它涵盖了各种主题,包括过渡(transition)模型、技能策略、组合和分层的任务结构、目标和环境表示、以及通过先决条件和效果来表征技能。

2023年论文“Robot learning in the era of foundation models: A survey”和 “Large language models for robotics: A survey”评估用于学习各种机器人技能(包括操作、导航、规划和推理)的最先进基础模型技术。他们还为研究界提出了未来的发展方向。

从视频中学习机器人操作技能是一项复杂的任务,需要全面的视觉流水线,涵盖各种目标,例如表征学习、目标affordance学习、人类动作识别和 3D 手部建模。如图所示:

请添加图片描述

关于最后一个“大规模机器人资源”话题,可以看到计算机视觉和 NLP 领域最近取得的进展,其特点是在大数据集上训练大规模多任务模型,开创了机器人技术尚未完全接受的先例。然而,人们一直在努力弥合这一差距,研究集体地使用大型数据集和网络,以及大规模机器人操作技能学习的创新算法。

RT-1 的开创性工作(Brohan,2022)提出了开放式任务无关训练,它优先考虑从广泛数据集中转移知识,并允许使用最少任务特定的数据进行泛化。Robotics Transformer 模型具有良好的可扩展性,可以吸收各种机器人输入。

在 RT-1 的基础上,RT-2(Zitkovich,2023)将视觉-语言模型与端到端机器人控制相结合,从而提高泛化能力和涌现的语义思维。由此产生的视觉-语言-动作模型 RT-2 显示出增强的泛化能力和基本思维能力。

在一项合作努力中,Open X-Embodiment(Padalkar,2023)启自于机器人学习的必要性。它泛化了“通才”X 机器人策略的理念,并主张可训练的模型可以适应不同的机器人、任务和环境。使用来自 22 个机器人和 160,266 个任务的数据呈现和训练了标准化数据集和模型(例如 RT-X)。使用此方法,在多个机器人平台上证明正向迁移和增强的功能。这也有助于确保机器人学习领域的标准化努力。

同样,BridgeData V2(Walke,2023)通过全面的机器人操作技能数据集为可扩展的机器人学习研究做出贡献,并展示了在具有不同泛化要求的任务上取得的成功。此外,RoboNet(Dasari,2019)可作为共享机器人经验的开放数据库,并探索学习基于视觉机器人操作的可泛化模型这种潜力。由于该领域标准化基准的可用性有限,RoboNet 在这方面做出了出色的贡献。

为了应对获取多样化和可泛化机器人操作技能的挑战,RH20T(Fang,2023)引入一个包含超过 110K 个接触丰富的机器人操作序列数据集,使训练智体能够实现跨各种现实世界技能的多模态感知。

总的来说,这些研究表明,人们正转向采用大规模数据集、海量模型和创新方法来提高机器人学习和操作技能。

研究人员提出了几种方法,利用视频作为训练机器人执行操作任务的数据源。其中一些方法借鉴了计算机视觉的许多想法,而少数方法也融入了语言建模的想法。该领域已经取得了实质性的进展;尽管如此,为了提高机器人掌握的操作技能,还需要对这个问题有更深刻的理解,进一步探索新的学习方法,并对现有的方法进行微调。

如图所示是从视频学习机器人操作技能的方法分类:

请添加图片描述

近年来,视觉语言模型引起了广泛关注,吸引了研究机构和行业。这一趋势已扩展到机器人技术,包括(Zitkovich,2023;Padalkar,2023)在内的各种研究都提出了利用这种融合优势的方法。

自引入 Transformer 以来,计算机视觉和自然语言处理发生了重大转变。这种转变促进了零样本自适应和快速微调。然而,正如 (Thomas 2023) 所述,Transformer 在机器人操控中的应用缺乏通用性,一些人将这种限制归因于针对机器人的训练数据不够定制 (Bommasani et al., 2021)。

各种方法的比较取决于几个关键属性,如下图所示:表征学习、先验知识的利用、域适配和鲁棒性,以及有限的专家演示。

请添加图片描述

存在的挑战包括:

数据的可用性和注释
域漂移
学习架构和资源的规模化
模型样本的效率
评估指标。

未来的工作方向包括:

数据效率
交互和主动学习
多任务的新学习架构
因果推理的整合
评估指标和基准的开发

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值