【17】 强化学习 17章 前沿技术

名词

离轨策略

允许函数以任意的目标策略作为条件

折扣过程

12.8节中, 折扣过程 推广为 一个终止函数, 使得可以在每个时刻采用不同的折扣系数来作为回报。

折扣系数
价值函数
广义策略迭代(4.6节)或者“行动器一评判器”算法

正文

17.1 广义价值函数和辅助任务

1、广义价值函数是什么?

离轨策略允许函数以任意的目标策略作为条件,终止函数的引入,使得可以在每个时刻采用不同的折扣系数来作为回报。
允许我们在一个任意的、状态相关的视界,可以预测未来能得到多少收益。

下一步:将收益推广, 允许对任意信号的预测。

比如,声音、颜色等信号未来的值之和进行预测, 而不止对未来的收益值之和进行预测。

不管我没累加的是什么信号, 我们都称其为 预测的累积量 : 累计信号: 在这里插入图片描述

广义价值函数GVF:
在这里插入图片描述

像传统的价值函数(例如v或者q)一样,这是一个可以用参数化的形式逼近的理想函数,我们可以继续用v(s,w)来标记它,尽管对于每一种π、γ、Ct 的选择,在每次预测过程中都会有一个不同的参数w。因为一个GVF并不必然与收益有联系,因此将其称为值函数可能有些用词不当。我们可以简单地称之为“预测",或者用更独特的方式说:预报(由Ring提出,准备发表)。不管如何称呼它,它的形式都和价值函数一样,因此可以用本书中提出的学习近似价值函数的方法学出来。在学习预测值的同时,我们也可以采用广义策略迭代(4.6节)或者“行动器一评判器”算法,通过最大化预测值来学习策略。用这种方式,一个智能体可以学习如何预测和控制大量不同类型的信号,而不仅仅是长期收益。

为什么预测和控制长期收益之外的信号可能有用呢?这类信号控制任务是在最大化收益的主任务之外额外添加的辅助任务。一个答案是,预测和控制许多不同种类的信号可以构建一种强大的环境模型。正如我们在第8章所述,一个好的环境模型可以让智能体更高效地得到收益。清楚地回答这个问题需要一些其他的概念,我们将在下一节中介绍。首先我们考虑两个相对简单的方法,在这些方法中,多个不同种类的预测问题会对强化学习智能体的学习有所帮助。

2、辅助任务是什么?

辅助任务帮助主任务的一个简单情形是它们可能需要一些相同的表征。有些辅助任务可能更简单,延迟更小,动作和结果之间的关联关系更加明晰。如果在简单的辅助任务中,可以很早发现好的特征,那么这些特征可能会显著地加速主任务的学习。没有什么理由可以解释为什么这是对的,但是在很多情况下这看起来很有道理。例如,如果你学习在很短的时间内(例如几秒钟)预测和控制你的传感器,那么你可能会想出这个目标物体的部分特点,这将对预测和控制长期收益有很大的帮助。

  • 如果在简单的辅助任务中,可以很早发现好的特征,那么这些特征可能会显著地加速主任务的学习。
  • 如果你学习在很短的时间内(例如几秒钟)预测和控制你的传感器,那么你可能会想出这个目标物体的部分特点,这将对预测和控制长期收益有很大的帮助。

我们可能会想象一个人工神经网络(ANN),其中的最后一层被分为好几个部分,我们称它们为头部,每一个都在处理不同的任务。一个头部可能产生主任务的价值函数预测(将收益作为其累计量),而其他的头部可能产生很多辅助任务的解。所有的头部都可以通过随机梯度下降法反向传播误差到同一个“身体”里一即它们前面所共享的网络部分一从第二层到最后一层都在尝试构建表示以提供必要的信息给头部。研究人员们尝试了各种各样的辅助任务,例如预测像素的变化,预测下一时间点的收益,以及预测回报的概率分布。在很多种情况下这个方法都显示出了对主任务学习的加速效果( Jaderbergetal.,2017)。类似地,作为一种有助于状态预测的方法,多预测的方法也被反复地提出过(见17.3节)。

另一个理解为何学习辅助任务可以提升表现的简单的方法是类比于经典条件反射这心理学现象(14.2节)。一种理解经典条件反射的方法是,进化使我们内置(非学习式的)了一个从特定信号的预测值到特定动作之间的反射关联。例如,人和许多其他动物看起来有一种内置的眨眼反射机制,当对于眼球将收到戳击的预测值超过某个阈值的时候,就会闭眼。这个预测是学出来的,但是预测和闭眼之间的关联是内置的,因此动物可以避免眼球受到突然的戳击。类似地,恐惧和心率加快或者愣住之间的关联、也可以是内置的,智能体的设计者们可以做一些类似的事情,例如,自动驾驶汽车可以学习“向前开车不会导致碰撞”,然后将其“停车/避开”的行为建立一个内置反射,当预测值超过一定阈值时触发。或者考虑一个真空清洁机器人,其可以学习预测是否会在返回充电装置前用尽电量,并且在该预测值变为非零时,条件反射一样地掉头移动到充电站。准确的预测取决于房间的大小、机器人所在的房间、电池的年龄,机器人的设计者很难了解所有这些细节,让设计者使用传感器的手段设计一个有效的算法来决定是否回头是很困难的,但是使学习到的预测则很容易做到这一点。我们预见到很多方法都会像这样将学习到的预测和内置控制行为的算法有效结合在一起。
最后,也许辅助任务最重要的作用,是改进了我们本书之前所做的假设:即状态的表不是固定的,而且智能体知道这些表示。为了解释这个重要作用,我们首先要回过头来了本书所做的假设的重要性以及去除它所带来的影响。这将在17.3中介绍。

定义: 预测和控制不同种类的信号特征

作用

17.2、基于选项理论的时序摘要

马尔可夫决策过程形式上的一个吸引人的地方是,它可以有效地用在不同时间尺度的任务上。我们可以用它来形式化许多任务,例如决定收缩哪一块肌肉来抓取一个目标,乘坐哪一架航班方便地到达一个遥远的城市,选择哪一种工作来过上满意的生活。这些任务在时间尺度上差异很大,然而每一个都可以表达成马尔可夫决策过程(MDP),然后用本书中讲述的规划和学习过程完成。所有这些任务都涉及由与环境的相互作用、序贯决策以及一个随时间累积的收益构成的目标,因此它们都可以被形式化成马尔可夫决策过程。

尽管所有这些任务都可以被形式化为MDP,但是我们可能认为它们不能被形式化为单一的MDP,因为这些过程涉及的时间尺度都不同,例如选择的种类和动作都截然不同。例如,把预定跨洲的航班和肌肉收缩放在同一时间尺度上是不合适的。但是对于其他任务而言,例如抓取、掷标枪、击打棒球,用肌肉收缩的层次来刻画可能刚刚好。人类可以无缝地在各个时间层次上切换,而没有一点转换的痕迹。那么MDP框架可不可以被拉伸,从而同步地覆盖所有这些时间层次呢?

人类可以无缝地在各个时间层次上切换,而没有一点转换的痕迹。那么MDP框架可不可以被拉伸,从而同步地覆盖所有这些时间层次呢?

也许是可以的,一种流行的观点是:先形式化一个非常小的时间尺度上的MDP,从而许在更高的层次上使用扩展动作(毎个时刻对应于更低层次上的多个时刻)的规划。为了能到这一点,我们需要使用一个展开到多个时刻的“动作方针”的概念,井引人一个“终止”的概念。对这两个概念的通用的形式化方式是将它们用一个策略和一个状态相关的终止函数γ来表达,就像在GVF中定义的那样。我们将这样的一个“策略终止函数”二元组定义为一种广义的动作,称之为“选项"。在t时刻执行一个选项 ω = < π ω , γ ω > ω=<π_ω,γ_ω> ω=<πωγω> 就表示从 π ω ( ⋅ ∣ S t ) π_ω(·|S_t) πω(St) 中获得一个动作 A t A_t At,然后在t+1时刻以 1 − γ ω ( S ( t + 1 ) ) 1-γ_ω(S_(t+1)) 1γω(S(

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值