David Silver《强化学习RL》第六讲 价值函数的近似表示

之前的内容都是讲解一些强化学习的基础理论,这些知识只能解决一些中小规模的问题,很多价值函数需要用一张大表来存储,获取某一状态或行为价值的时候通常需要一个查表操作(Table Lookup),这对于那些状态空间或行为空间很大的问题几乎无法求解,而许多实际问题都是这些拥有大量状态和行为空间的问题,因此只掌握了前面5讲内容,是无法较好的解决实际问题的。本讲开始的内容就主要针对如何解决实际问题。

本讲主要解决各种价值函数的近似表示和学习,下一讲则主要集中与策略相关的近似表示和学习。在实际应用中,对于状态和行为空间都比较大的情况下,精确获得各种v(s)和q(s,a)几乎是不可能的。这时候需要找到近似的函数,具体可以使用线性组合神经网络以及其他方法来近似价值函数

v(S) \approx v(S,w)

w 表示引入的参数,通常是一个矩阵或至少是一个向量。

本节先讲解了引入价值函数的近似表示的重要性,接着从梯度开始讲起,使用梯度下降可以找到一个目标函数的极小值,以此设计一个目标函数来寻找近似价值函数的参数。有机器学习基础的读者理解本节会非常容易。本节的理论重点在于理解不同强化学习方法在应用不同类型的近似函数时的收敛性,能否获得全局最优解,以及DQN算法的设计思想及算法流程。本讲罗列了大量的数学公式,并以线性近似函数为例给出了具体的参数更新办法,这些公式在强大的机器学习库面前已经显得有些过时了,但对于理解一些理论还是有些帮助的。此外,在本讲的最后还简单介绍了不需要迭代更新直接求解线性近似函数参数的方法,可以作为补充了解。

 

简介 Introduction

  • 大规模强化学习 Large-Scale Reinforcement Learning

强化学习可以用来解决大规模问题,例如围棋有 10^{170} 个状态空间,控制直升机飞行需要的是一个连续状态空间。如何才能将强化学习应用到这类大规模的问题中,进而进行预测和控制呢?

 

  • 近似价值函数 Value Function Approximation

到目前为止,我们使用的是查表(Table Lookup)的方式,这意味着每一个状态或者每一个状态行为对对应一个价值数据。对于大规模问题,这么做需要太多的内存来存储,而且有的时候针对每一个状态学习得到价值也是一个很慢的过程。

对于大规模问题,解决思路可以是这样的:

1. 通过函数近似来估计实际的价值函数:

2. 把从已知的状态学到的函数通用化推广至那些未碰到的状态中;

3. 使用MC或TD学习来更新函数参数。

 

  • 近似函数的类型 Types of Value Function Approximation

针对强化学习,近似函数根据输入和输出的不同,可以有以下三种架构:

 

1. 针对状态本身,输出这个状态的近似价值;

2. 针对状态行为对,输出状态行为对的近似价值;

3. 针对状态本身,输出一个向量,向量中的每一个元素是该状态下采取一种可能行为的价值。

  • 有哪些近似函数 Which Function Approximator

所有和机器学习相关的一些算法都可以应用到强化学习中来,其中线性回归神经网络在强化学习里应用得比较广泛,主要是考虑这两类方法是一个针对状态可导的近似函数。

强化学习应用的场景其数据通常是非静态、非独立同分布的,因为一个状态数据是可能是持续流入的,而且下一个状态通常与前一个状态是高度相关的。因此,我们需要一个适用于非静态、非独立同分布的数据的训练方法来得到近似函数。

注:iid: independent and identically distributed 独立同分布

 

下文将分别从递增方法和批方法两个角度来讲解价值函数的近似方法,其主要思想都是梯度下降,与机器学习中的随机梯度下降和批梯度下降相对应。

 

递增方法 Incremental Methods

 

首选简要解释了下什么是梯度、梯度下降以及梯度下降能做什么。

  • 梯度下降 Gradient Descent

假定J(w)是一个关于参数w的可微函数,定义J(w)的梯度如下:

调整参数超朝着负梯度的方向,寻找J(w)的局部最小值:

式中α是步长参数,机器学习里称为学习速率参数

 

目标:找到参数向量w,最小化近似函数 \hat{v}(S,w) 与实际函数 v_{\pi}(S) 的均方差:

梯度下降能够找到局部最小值:

使用随机梯度下降对梯度进行更新,来近似差的期望:

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值