杂乱环境中基于学习的机器人操作:综述

22年10月 Sensors 的论文“Review of Learning-Based Robotic Manipulation in Cluttered Environments”。

机器人操控是指机器人如何智能地与周围的目标互动,例如抓取目标并将其从一个地方搬运到另一个地方。灵巧的操控技能,使机器人能够协助人类完成各种可能过于危险或难以完成的任务。这要求机器人能够智能地规划和控制其手臂的动作。目标操控是机器人完成多项任务的关键技能。然而,这也对机器人技术提出了挑战。这篇综述论文的目的,是回顾和分析关于杂乱环境中基于学习的目标操控最相关研究。
这篇综述论文对在密集杂乱环境中使用深度强化学习 (deep RL) 操控目标提供了宝贵的见解。通过调查现有文献和调查各个方面来检验各种研究,即预期应用、应用的技术、研究人员面临的挑战以及为克服这些障碍而采取的建议。本综述将基于深度强化学习的机器人在杂乱环境中的操作任务分为三类,即目标移除、组装和重排列,以及目标检索和分离任务。然后,讨论在杂乱环境中进行目标操作的挑战和潜在前景。

如 [2] 所述,传感方法、学习方法和夹持器设计方法都用于解决机器人技术中的操作挑战。通过执行从基本到复杂的任务,每种方法都为机器人性能做出了重大贡献。几项研究 [3–7] 强调了改善抓握的传感方法。一些研究着眼于触觉和视觉传感器如何通过提取内部(触觉传感器)和外部(视觉传感器)目标特征来开发机器人技术。根据这些研究,机器人必须能够通过传感能力感知和解释其环境。其他研究发现,如果夹持器构造不良,传感技术就不令人满意。设计夹持器有助于改善机器人抓握的传感方法。夹持器的设计,包括刚性平行爪手指和多指夹持器 [8] 和软夹持器 [9–11],已经得到了广泛的研究。许多研究人员采用不同的材料来构建刚性和柔性夹持器,以支持传感信息和夹持器设计协同工作的想法 [12,13]。人们已经针对一系列难题研究了传感和夹持器设计方法。

学习方法包括计算机视觉或认知学习,这对于机器人在人类环境中智能操作和应对可能出现的任何情况是必不可少的。因此,机器人被教导与人类合作,并帮助他们完成各种日常任务 [14]。当这两种机器学习技术结合在一起时,就会产生一个名为“深度强化学习”的新领域,它是机器学习的一个子集。在深度强化学习中,由于 Q-表的局限性,深度学习的强大功能可用于解决强化学习 (RL) 问题,由于状态数量巨大,Q-表在机器人技术中的效率可能会降低。因此,深度强化学习框架采用深度神经网络将状态(感知输入)映射到动作价值(Q-值或 Q-函数)。然后,强化学习采取该动作价值并执行相应的动作。此操作通过反向传播的损失函数进行评估,以使用特定优化器更新网络中的权重。当其用于机器人操作时,机器人会通过传感器(例如摄像头和触摸传感器)观察环境,并尝试根据已预定义的策略采取最佳操作。最近在机器人技术中使用的学习策略之一是深度 RL 框架,其中智体与环境交互以通过反复试验学习最佳策略。

机器人操作可以在不同情况下出于不同目的执行,不同研究 [15] 对此进行了探讨。例如,深度强化学习方法已用于协助机器人在各种应用中执行复杂的机器人操作任务,如可变形目标操作 [16]、重目标操作 [17] 和拾取放置任务 [18–20]。尽管有几项研究专注于使用学习方法(例如深度强化学习)解决机器人操作问题,但如 [21] 所述,它仍然需要进一步研究。其他评论文章讨论了基于深度强化学习的机器人操作在不同领域的现状,如机器人操作 [22]、机器人抓取 [21]、拾取放置操作 [23]、生产系统 [24] 和箱子拾取方法 [25]。尽管科学界对此充满热情,且其具有实际意义,但在杂乱环境中进行目标操控仍然是一项尚未解决的重大挑战。

如图所示,本文的机器人抓取任务有三种类型:(1)目标移除任务;(2)目标检索和分离任务;(3)组装和重排列任务。

请添加图片描述

目标移除任务的策略如图所示:为了更容易地从杂乱的环境中移除目标,已经采用了单独抓取策略、基于吸力的抓取、基于多功能夹持器的抓取和双-动作协同。

请添加图片描述

组装任务需要组装各种不同形状的多个目标(例如,建造塔或积木形状)。虽然排列任务在原理上与组装任务相似,但它侧重于以基本方式排列目标(例如,根据颜色对目标进行分类,按一条线方式对目标进行分类)。组装和重新排列是机器人任务,它们使用抓取来完成杂乱挑战中的特定任务(例如,将目标堆叠在一起以形成塔或重组装成玩具的形状)。

目前,在杂乱的环境中从周围环境中检索目标物体是一项挑战。此外,目标分离任务的挑战性不亚于目标检索任务。两者被视为相同的挑战,因为它们以集成的方式工作。

存在的挑战和推荐的方向(略)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值