Reinforcement Learning: An Introduction Second Edition - Part III

14 Psychology

15 Neuroscience

16 Applications and Case Studies

16.1 TD-Gammon

学习玩西洋双陆棋(backgammon)。算法采用了一种非线性的 TD( λ \lambda λ) ,使用标准的多层神经网络作为函数逼近器。通过反向传播TD误差来训练网络。

16.2 Samuel’s Checkers Player

16.5 Human-level Video Game Play

Deep Q-Network.

问题特性:无模型和离轨策略。半梯度的Q-learning + 多层神经网络。经验回访方法。

16.6 Mastering the Game of Go

这里描述了 AlphaGo 和一个名为 AlphaGo Zero 的后继程序。除了强化学习之外,AlphaGo还依靠从人类专家棋谱的大型数据库中进行监督学习,而AlphaGo Zero只使用了强化学习。

AlphaGo 和 AlphaGo Zero 是 Tesauo 的 TD-Gammon 的继承者,而 TD-Gammon 是 Samuel 跳棋程序的继承者。所有这些程序都包括在模拟的自我对局中进行强化学习。

16.6.1 AlphaGo

用改进的 MCTS 进行走子。

16.6.2 AlphaGo Zero

在整个强化学习期间使用 MCTS 进行走子。相比之下,AlphaGo 只在在线对局时使用 MCTS ,在学习期间没有。

AlphaZero.

16.9 Mastering Stratego, the classic game of imperfect information

DeepNash:AlphaGo/AlphaGo Zero/AlphaZero 的继承者,于 2022.12.1 发布。Stratego 是一款不完全信息的经典游戏。DeepNash 通过结合博弈论和无模型深度强化学习从头开始学习玩 Stratego 。

17 Frontiers

17.1 General Value Functions and Auxiliary Tasks

对“收益”的概念的推广:对任意信号的预测。不仅仅是对未来收益之和进行预测,也可以对一个内部的经过复杂处理的信号(例如另一个预测值)的未来的值之和进行预测。无论什么信号在类似于价值函数的预测中被累加起来,我们都称其为这种预测的累积量。我们把它形式化为一个累积信号Ct。使用它,我们得到广义价值函数(general value function, GVF)。注:对广义的收益的累积使我们得到了广义价值函数,此时收益被累积量代替。

和传统的价值函数一样,广义价值函数也可以用参数化形式逼近(不同的累积量C会有一个不同的参数),用书中提出的学习近似价值函数的方法学出来,并通过最大化预测值来学习策略。通过这种方式,智能体可以学会预测和控制大量不同类型的信号,而不仅仅是长期收益。

为什么预测和控制长期收益以外的信号可能是有用的?Auxiliary tasks:预测和控制长期收益以外的信号。预测和控制多种多样的信号的能力可以构成一种强大的环境模型。正如我们在第八章看到的,一个好的模型可以使智能体更高效地获得收益。注:比如在Atari游戏中,把背景音乐作为辅助任务进行学习,可以帮助更高效地获得奖励。首先让我们考虑多样的预测可以对强化学习智能体有帮助的两种简单的方式。

辅助任务可以帮助完成主任务的一个简单方式是,它们可能需要一些与主要任务相同的表征。

学习辅助任务可以提高性能的另一个简单方式,可以通过类比古典条件反射这一心理学现象得到最好的解释。

最后,也许辅助任务最重要的作用是超越我们在本书中所做的假设:状态表征是固定的,并且智能体知道这些表征。为了解释这个作用,我们首先要退后几步,来了解这个假设的重要性以及去除它所带来的影响。

17.2 Temporal Abstraction via Options

能否通过拉伸一个单一的MDP来学习不同时间尺度上的任务。

可以将策略的概念推广为为层次化策略(a hierarchical policy)。

17.3 Observations and State

部分可观测MDP(POMDP)。

预测状态表示(PSR)。

17.4 Designing Reward Signals

设计收益信号是所有强化学习应用的重要部分。

奖励稀疏问题。

模仿学习和逆强化学习。

优化算法。

17.5 Remaining Issues

更强大的参数化函数逼近方法。

学习特征表示的方法。表征学习和元学习。

使用可拓展的方法在学习到的环境模型中进行规划

自动化智能体的任务选择过程。

使用某种可计算的好奇心来推动行为和学习之间的相互作用。

开发足够安全的方法。

17.6 The Future of Artificial Intelligence

由于强化学习依赖于优化,因此它继承了所有优化方法的优点和缺点。

如何保证智能体可以得到足够多的经验以学习一个高性能的决策,同时又能保证不损害环境、其他智能体或者它本身?

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值