机器人感知与规划笔记 (7) - 行为架构 (Behavioral Architectures)

机器人系统中的不确定性(uncertainty)

机器人系统在非结构性环境中需要应对传感器噪声和不确定性

  • 传感器不确定性(sensor uncertainty):传感器读数可能不准确或者不可靠
  • 不可观测性(non-observability):多个环境方面无法被观测。初始状态下,环境是未知的。
  • 行动不确定性(action uncertainty):行动可能会失败。行动会有非确定性的输出(nondeterministic outcomes)。

现场机器人 (Situated Robotics)

为复杂,挑战性和动态变化的环境设计自主机器(autonomous machine)的科学被称为现场机器人技术(situated robotics)。指机器人的行为被环境强烈影响。
存在于静态,不变的环境中的机器人不被认为是现场situated的。即在高度结构化,固定且可预测的环境中运行的组装机器人。
环境的可预测性和稳定性直接影响必须在其中运行的机器人的复杂性。这使得现场机器人技术称为控制工程的巨大挑战。

自主控制系统

机器人自主控制是指通过机器人的传感器获取有关环境的信息,根据需要对其进行处理并做出有关如何采取行动的决策的过程。环境的复杂性(即现场程度 the level of situatedness)直接影响控制系统的复杂性,而控制系统也与机器人的任务直接相关。

基本有四类机器人控制方法论:

  1. 协商式 Deliberative (思考,然后采取行动)
  2. 反应式 Reactive (不思考,直接行动)
  3. 混合式 Hybrid (协商和反应性)
  4. 基于行为 behavior-based (平行竞态行为)

协商式控制架构 (Deliberative Control Architecture)

在这里插入图片描述

在协商控制架构中,机器人首先通过推理其动作的结果来计划任务的解决方案,然后再执行。控制过程包括一系列感知(sensing),模型更新(model update)和规划步骤(planning steps)。协商控制架构使用所有机器人可用的感应信息和所有内部存储的知识来推断下一步将要采取的措施。

控制系统是对决策过程的功能分解(functional decomposition)。功能分解允许执行复杂的操作,但意味着决策模块之间的顺序依存性(sequential interdependencies)强。

决策过程 (decision-making processes)

  • 感应处理模块 (sensory processing module)
  • 建模模块 (modelling module)
  • 规划模块 (planning module)
  • 价值判断模块 (value judgement module)
  • 执行模块 (execution module)

规划 (Planning)

推理(reasoning)通常以计划的形式进行,需要搜索可能的状态-动作序列(state-action)及其结果。规划是协商控制系统的主要组成部分,并且是一个计算复杂(computationally complex)的过程。
规划过程要求机器人执行一系列的感应,规划和行动步骤(sense-plan-act)。如:

  1. 将感应数据组合成世界地图。
  2. 使用规划器(planner)在地图中查找路径。
  3. 将规划的步骤发送到机器人的轮子上。
    机器人必须从当前位置构造(construct)和评估(evaluate)可能的所有计划,直到找到能够实现目标的计划为止。

规划需要存在一个内部的,符号代表 (internal, symbolic representation) 的世界,这使得机器人可以展望未来(look ahead into future),并预测各种状态下可能采取的行动的结果,从而制定计划。

  • 内部模型(internal model)必须保持准确(accurate)和实时最新(up to date)。
  • 当有足够的时间来制定计划并且世界模型准确时,这种方法可以使机器人通过针对给定情况选择最佳的行动方案(best course of action)来采取战略行动。
  • 然而,由于处于不确定的有噪声世界(noisy non-deterministic world)中,通常不可能做到这样。

优点

  • 能进行关于突发情况(contingencies)的推理
  • 计算给定任务的解决方案
  • 目标导向(goal-directed)的策略
  • 抗噪声和动态的稳健性。(robustness to noise and dynamics)

缺点

  • 在存在不确定性的情况下,解决方案可能很脆弱(fragile)。
  • 需要频繁的重新计划。(requires frequent re-planning)
  • 对变化和意外情况(unexpected situations)的反应相对缓慢。
  • 机器人并不是纯粹协商性(purely deliberative)的。

反应式控制架构 (Reactive Control Architecture)

反应式控制架构是由对相应于复杂且动态变化的现实环境(complex and dynamically changing real-world environments)的需求的更快动作的需求所驱动的。
反应式控制的感觉输入与执行器紧密耦合(tightly coupled),没有其他推理行为干预(no intervening reasoning)。
这使得机器人可以快速响应不断变化的非结构性环境(changing and unstructured environment)。

反应性控制是受刺激反应的生物学概念启发的。 它不需要获取或维护世界模型,因为它不依赖于协商控制中使用的复杂推理过程的类型。

扩大反应型机器人规模可能会很困难。
更复杂的反应式机器人使用基于快速规则的方法,而没有内部表示或世界知识。
可以使用一组内部状态最小(minimal internal state)的预编程并发条件操作规则 pre-programmed concurrent condition-action rules (比如,如果颠簸的时候就停止,如果停止的时候就备份)来实现实时反应,这在迷宫解决机器人中很常见。

ANN 人工神经网络 (Artificial Neural Network)

可以用于实现对输入刺激的适当响应。人工神经网络还可以通过远程控制remote control (即演示学习 - learning via demonstration),也可以通过使用遗传算法(genetic algorithm)进行进化。
在这里插入图片描述

优点

  • 反应式控制非常适合动态和非结构化的世界。因为在这些世界中,访问世界模型是一个不现实的选择。
  • 最少的计算意味着反应性系统快速,稳键且适合用于最少的硬件平台(minimal hardware platform)。
  • 能够及时响应快速变化的环境。
  • 能够在非结构化环境中对可以事先确定的任务执行最佳性能。

缺点

  • 反应型控制权衡了快速响应时间(fast reaction time)和推理复杂性(complexity of reasoning)。
  • 不适合需要内部模型,内存和学习的任务。
  • 无法存储高级环境信息 high-level environment information (如地图),因此无法随着时间的推移进行规划plan,学习learn和适应adapt。

混合式控制架构 (Hybrid Control Architecture)

混合式控制架构旨在将反应性和协商性控制的最佳方面结合起来

  • 反应(reactivity)的实时响应。
  • 商议(deliberation)的合理性和最佳性。

混合控制系统包含两个不同的组件:

  • 反应/并发条件 - 行动规则(action rules)
  • 协商数据结构 (deliberative data sturcture) (必须交互才能产生一致的操作)
    在这里插入图片描述
    混合式架构将反应式控制(reactive control)与抽象任务计划(abstract task planning)相结合。

层级

  • 抽象任务计划层 (Abstract Task Planning Layer): 协商决定(deliberative decisions),制定目标导向策略(plans goal directed policies)。
  • 反应行为层 (Reactive Behavior Layer): 提供反应性的行动。处理传感器(sensors)和执行器(actuators)。

三层架构(three-layered architecture):

  • 反应层 (reactive/execution layer)
  • 中间层 (intermediate/co-ordination layer)
  • 协商层 (organisation/planning)

三层架构旨在利用动态 (dynamic),并行 (concurrent) 和时间响应控制 (time-responsive control) 形式的最佳反应控制,以及长期范围内全局高效动作(global efficient actions)的形式的最佳协商控制。

这三层,层数越高,智能越高,但是控制精度越低。反之,层数越低,智能性越低,控制精度越高。但是,在接口这些根本不同的组件时设计复杂的问题,其功能划分的方式尚不清楚。

反应式和协商式之间的沟通

  • 只要两个组件的输出不冲突(not in conflict),系统就不需要进一步的协调(no further co-ordination)。
  • 但是,如果系统的两个部分要相互受益,则必须相互作用。因此,如果世界提出了一些意想不到的直接挑战,那么反应式系统的决定必须高于协商性系统。
  • 同样的,协商式系统必须告知反应式系统,以引导机器人朝着更高效和最佳的轨迹和目标前进。
  • 系统的两个部分交互需要一个中间组件(intermeidate component),该组件可以协调其他两个组件使用的不同表示形式(different representations)以及它们的输出之间的任何冲突。此中间组件的构造是混合系统设计中最大的挑战。

优点

  • 允许目标导向策略(goal-based strategies)。
  • 确保了对突发改变快速的反应。
  • 减少了规划的复杂性。

缺点

  • 行为选择(choice of behavior)限制了可能的任务范围。
  • 必须对行为交互进行良好的建模 (well modeled),以便能够形成计划。
  • 复杂性。

基于行为的架构 (Behavior-based Control)

基于行为的控制使用一组称为行为(behaviors)的分布式交互模块(distributed, interacting modules),这些模块共同实现所需的系统级行为(desired system-level behavior)。
每种行为都会接收来自传感器的输入 和/或 系统中的其他行为,并向机器人的执行器(actuators)或其他行为提供输出。

没有集中的世界表示(world representation)或者控制重点(focus of control)。相反,单个行为或行为网络(networks of behavior)维护其自己所需的状态信息(state information)和模型(models)。

在基于行为的控制体系结构中,机器人的动作由一组并行的反应性行为(parallel, reactive behaviors)决定,这些行为将感应输入和状态(sensory input and state)映射到动作。
在这里插入图片描述
对于外部观察者而言,行为是机器人活动的模式,该活动是由机器人与其环境之间的相互作用产生的。对于开发者而言,行为是控制模块(control modules),这些控制模块将约束(constraints)聚集在一起以实现和维护目标。
反应式,基于行为的控制结合了相对简单的行为,每个行为都实现了特定的子任务(subtask),从而实现了总体任务。

  • 机器人可以快速响应变化。
  • 系统不依赖于完整的环境知识(complete knowledge of the environment)。
  • 突发行为 (由合并初始行为导致) 可能难以预测准确的行为。
  • 难以确保完成总体任务(overall task)。

包含架构 Subsumption Architecture

包含架构是最早的基于行为的架构之一。该架构中的行为按照严格的优先级顺序(priority order)排列,只要不禁止,较高优先级的行为就会包含(subsume)较低优先级的行为。
在这里插入图片描述
包容架构利用了 行为本身之间 以及 行为与环境之间 的交互动力学(dynamics of interaction)。可以说基于行为的系统功能是从这些交互中产生的,因此既不是机器人的属性,也不是孤立的环境,而是它们之间相互作用的结果。
与反应式控制不同,反应式控制使用的反应性规则集合几乎没有任何状态且没有表示形式,而基于行为的控制则利用没有此类约束的行为集合。
行为可以有状态,可以用来构造表示(representation),从而可以进行推理(reasoning),规划(planning)和学习(learning)。

优点

  • 对变化做出快速反应。
  • 不需依赖准确的模型。
  • 世界就是他自己最好的模型。
  • 无需重新规划。

缺点

  • 难以预期行为组合(combination of behaviors)会产生什么影响。
  • 难以制定能够实现复杂,创新任务的策略。
  • 需要为新任务重新设计控制系统。

架构之间对比

每种机器人控制方法都有其优点和缺点。在某些机器人控制问题和应用中,所有人都扮演着重要而成功的角色。每种方法都提供有趣但不同的见解,并且不应将任何一种方法视为理想或绝对的方法。机器人控制方法的选择应基于特定的任务,环境和机器人。
例如,反应式控制是要求立即响应的环境的最佳选择。但是,这种反应速度是以短视(shorted sighted)为代价的-不能展望过去或未来。在高度随机(highly stochastic)的环境中,以及在可以被认为具有明显的反应输入输出映射(例如,寻光机器人)的环境中,反应式系统也是一种流行的选择。
对于需要大量战略,优化和计划(strategy, optimisation and planning)的领域,协商系统是唯一的选择。然而,此类领域并不是典型的现场机器人技术,而是调度,游戏和系统配置等等领域。
混合系统非常适合需要内部模型和计划(internal model and planning),实时需求(real-time demands)很少或完全独立于高层推理的环境和任务。
相比之下,基于行为的系统最适合于动态变化显着的环境,在这些环境中,快速响应(fast response)和适应性(adaptivity)至关重要,但是需要具有前瞻性(looking ahead)并避免过去的错误。这些功能分散在活动的行为中,必要时使用活动的表示形式(active representations)。
由于这些固有的权衡,重要的是要有不同的方法,而不是必须将所有控制器的需求都放在一个方法中。
选择适当的控制方法并在其中设计架构,在硬件, 世界建模和计算中,最好由问题的现场属性,任务的性质,所需的效率或最佳性水平以及机器人的能力来决定。

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值