机器人感知与规划笔记 (8) - 感知和行为学习

学习与适应行为 (learning & adaptive behavior)

学习:在代理(agent)中产生更改,使其随着时间的推移能够在环境中更有效地执行。
适应:通过进行调整以适应环境来学习。表型(phenotypic)(在单个代理内)或基因型(genotypic)(在进化中 evolutionary)。Acclimatisation适应 (缓慢) 或 homeostasis 体内平衡 (rapid)。

学习可以通过多种方式提高性能:

  • 引入新知识(事实,行为,规则)
  • 概括概念
  • 专门针对特定情况的概念
  • 整理信息
  • 创建或发现并适应新概念
  • 创建说明
  • 重用过去的经验
  • 整合其他代理agent的经验

学习什么?

  • 学习解释传感器信息:传感器无法提供大量数据。通常不可能对所有必需的对象进行编程。
  • 学习新的策略和任务:新任务必须在线上进行学习。甚至在现有的任务中,不同的执行者也需要有新的策略。
  • 适应现有的控制策略:用户的首选项(preferences)可以被动态改变。必须反映环境的变化。

学习方法

分类

  • 通过教学进行监督学习(supervised learning by teaching): 机器人可以从“老师”(即用户或者外部知识数据库)的直接反馈中学习,以表明正确的策略。机器人从“老师”提供的示例中学习。这需要相关知识的可用性。
  • 从演示(demostration)中学习(模仿 Imitation): 机器人通过观察代理 (人类或者其他机器人) 学习并执行所需的任务。机器人必须能够"理解"其观察到的东西并将其映射到自己的能力上。
  • 通过探索(exploration)学习: 机器人通过尝试不同的动作并观察其结果来自主学习(learns autonomously)。无监督学习。机器人学习优化奖励的策略(strategy that optimizes reward)。

技术

  • 强化学习 (Reinforcement learning)
  • 人工神经网络学习 (Artificial Neural Network learning) 即多层感知器网络(Multi-layer Perception Networks)
  • 进化学习 (evikutionary learning) 即遗传算法。
  • 向演示学习 (learning from demonstration)
  • 归纳学习 (Inductive learning)
  • 其他: 轨迹速度学习 (trajectory velocity learning), 自动推导行为 (automatically deriving behaviors)

强化学习 (Reinforcement Learning)

在行动的响应发生后,立即应用奖励以增加再次发生该行为的可能性。或者启用惩罚来降低该行为发生的可能性。通过行动中的"成功"和“失败”中进行学习。强化学习(RL)是代理系统(如机器人技术)中最广泛使用的适应方法之一。
奖励由用户或者环境提供,包括了:间歇的用户反馈(Intermittent user feedback)。一般奖励(generic rewards),表明不安全或者不方便的行为或事件。

机器人必须探索其动作(action)以确定其作用是什么:动作会改变环境的状态。动作会获得不同的奖励。

学习期间,机器人必须保持一定的安全水平。

是什么?

强化学习是无监督学习的一种形式,即在返回奖励信号(reward signal)的环境中行动。并学习如何做。奖励也定义了问题。在RL中,机器人或者代理的目的是学习最佳策略(best policy),即获得给定目标的动作顺序(sequence of actions)。机器人应该学习如何最大化奖励,并通过探索来学习最佳策略(尝试和错误)。

目标:学习一种最佳策略,为每组可能的输入选择最佳措施。
策略:状态/操作(state/action)映射,确定要采取的操作。

理想的结果会加强(strengthen)行为,而不良结果会减弱(weakened)行为。

批判: 评估系统的反应(system’s response)并进行强化。外部(external):用户提供强化。内部:系统本身提供强化功能(奖励功能)。

为了通过RL学习,机器人可以感知集合S中的环境状态(environment state),并能够执行集合A中的动作(actions)。机器人选择与输入状态相关联的具有最高奖励(most reward)的动作。然后,机器人衡量其动作 (正面positive或者负面negative)的后果,并更新与感知/动作对(perception/action pair)相关的奖励级别。
在这里插入图片描述

开销

RL在计算上可能非常昂贵,即O(n3),其中n是状态的数量。复杂的任务很难学习,因为它们涉及到很长的动作序列(long sequences of action),这些动作必须正确才能获得奖励。
因此,复杂任务可以被分解为较短的简单任务序列(sequence of simpler task)来学习。使用表示更为紧凑compact,更简单simpler的子目标(subgoals)的控制策略。如果已经解决了更简单的任务,则必须考虑更少的条件(fewer conditions)。可以更快地学习新任务。分层强化学习(Hierarchical Reinforcement Learning)。通过抽象动作学习(abstract actions)。获取抽象任务知识(abstract task knowledge)。

在混合架构中的强化学习

在这里插入图片描述

  • 策略获取层(policy acquisition layer): 无需监督即可学习任务。
  • 抽象计划层(Abstract Plan layer): 学习系统模型。基本状态空间压缩(basic state space compression)。
  • 反应行为层(Reactive Behavior Layer): 初始能力(Initial Competente)和反应能力(reactivity)。

进化学习 (Evolutionary learning)

进化过程:在解决方案空间中搜索以找到最适合的解决方案。

遗传算法 (Genetic Algorithm)

每一代都由一系列字符串组成,这些字符串类似于我们在DNA中看到的染色体。每个个体代表搜索空间中的一个点以及可能的解决方案。然后使群体中的个体经历进化的过程。

在这里插入图片描述
知识(knowledge)被编码为字符串:染色体(chromosome)。每一位都代表一个"基因"。受生物学启发的算子可以产生更好的下一代。
在这里插入图片描述

从演示(demostration)中学习

要求用户以错误方向和幅度形式为机器人提供准确的解决方案。用户必须了解每种情况的确切所需行为。监督学习涉及训练,训练过程可能会非常缓慢。用户必须使用许多示例来监督系统。
在这里插入图片描述
将任务知识从人类转移到机器人:

  • 导航并执行任务。
  • 需要跟踪"教师"和其他对象。
  • 比较复杂。

自动推导行为 (Automatically Deriving Behaviours)

给用户的动作建模形成行为词汇(behavior model),分类行为并让机器人学习用户的行为,从而能执行某些操作。
在这里插入图片描述
学习动作模块的词汇表(vocabular of motion modules)
从演示中了解行为的上下文(context)。

方法

  • 输入:运动动作(kinematic motion); 关节角的时间序列(time series of joint angles)。
  • 运动分割(motion segmentation)

将输入运动划分为概念上不可分割的运动段(motion segments),接着分组。
接着进行降维和聚类分析。将行为归纳为正向模型(forward model)
为每个行为插值密集采样,从原级(meta-level)进行分组。

归纳逻辑学习 (Inductive Logic Learning)

有监督符号学习方法的主要一种是归纳逻辑编程(Inductive Logic Learning)。这是发现学习(discovery learning)的一种形式。旨在学习一般规则(general rules)。
方法基于逻辑表示和一阶逻辑推论(first-order logic inference),并使用上下文知识(contextual knowledge),即,已经获取的知识。
ILP的目的是综合(或学习)给定一组变量的逻辑程序,这些变量为其返回真或假值,以及所谓的背景知识。(background knowledge)
程序构成对观察结果的解释。

轨迹速度学习 (Trajectory Velocity Learning)

轨迹速度学习包括学习机器人输入传感器和适当速度之间的映射,以协商机器人的预定义输出轨迹命令(predefined output trajectory commands)。每个输出轨迹命令都具有预定义的半径和最大速度,用于在自由空间中移动。
从传感器数据感知适当的轨迹速度。通过能够直接从传感器数据中感知适当的轨迹速度,可以通过给机器人一个指令跟随最接近正向的快速轨迹来执行避障行为。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
类似地,也可以通过向机器人提供一条指令来跟随最接近物体或目标位置的快速轨迹来产生围墙跟随或目标寻找行为。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值