周志华机器学习笔记-C16

强化学习

依据最终奖励决定行动策略的学习过程,可视为延迟标记信息的监督学习问题。

强化学习模型

1、马尔科夫决策过程MDP:强化学习常用MDP进行描述,其任务对应四元组E=<X, A, P, R>,环境E,状态空间X,动作A,状态转移概率P,奖励函数R。下图为西瓜浇水的MDP。

95f2eecaa0624a6a93f173f28ba756a5.png

2、强化学习目标:在环境中不断尝试以学习一个策略,即在某种状态下应当采取的动作,其优劣评价应该由长期执行后的累积奖赏作为标准。如某策略种出好瓜,累积奖赏很大,反之若枯死,则奖赏很小。累积奖赏计算方式可用T步累积奖赏和γ折扣累计奖赏计算。

单步强化学习——K-老虎机

考虑一步操作能获得的最大奖赏(累积奖励退化为单步奖励),即单步强化学习,其理论模型为K-老虎机。即投币后摇动摇杆以一定概率吐出硬币,但是不知道各个摇杆吐币的概率,要求在尝试中最大化受益。

1、探索与利用:两种基本策略为“仅探索”、“仅利用”。仅探索指的是平均分配机会,获取各个摇杆近似吐币概率(或说总是以平均概率选择摇杆),仅利用指的是按下目前最优摇臂,两者通常都不能使得累积奖赏最大化。

2、ε-贪:折中探索与利用的策略,每次尝试以ε的概率探索,以1-ε的概率利用。该策略不确定性较大,若概率分布较宽,则ε值需较大,否则较小即可。此外长时间探索能将奖赏很好近似,基本不需要探索,可令ε随时间减小。

3、Softmax:基于当前已知摇臂平均奖励对探索和利用进行折中。选中摇臂的概率由下述公式决定,其中超参为τ,称为“温度”,其趋于0时趋于“仅探索”,趋于无穷时趋于“仅利用”。

3d8873d5e6df484a973666ae5b0a27a6.png

多步强化学习

包括模型E=<X, A, P, R>已知或未知的情形,此时累积奖赏是指执行策略后未来若干步的奖赏。此时认为状态空间和动作均有限。

1、有模型学习:

模型已知,根据MDP的马尔科夫性质可以推出状态值函数(即累积奖励函数,仅与初始状态和策略有关)、状态-动作值函数(从某状态出发使用某动作后再采用策略带来的累积奖励)的递归关系(以T步累积为例)。由此可以评估一个给定策略,下为伪代码。

16f3764c008842b9abbc0d4592ba08a4.png

be71891e1fc244c684bcddac52092567.png

5154cac6388b4f2daf5de355741311fb.png

评估后的模型若不为最优,则应该改进。评估与改进形成迭代,下为策略迭代算法。此外还有值迭代算法。

d6cd8b65e15243818c3745ac39bf5046.png

2、免模型学习:

学习算法不依赖于环境建模。首先面临模型无法评估,代替方法为多次采样,求取平均累积奖励作为期望累积奖励近似,在评估的基础上改进该策略,此即蒙特卡洛强化学习。时序差分学习结合动态规划和蒙特卡洛方法的思想,能做到更高效免模型学习。

值函数近似

先前假定强化学习为有限状态空间上进行,值函数亦有限,此节讨论如何获取连续状态空间的值函数。实际上,可以直接对值函数进行学习,如假设值函数为线性的,可获得Sarsa算法。

1338d89a4dc64a2da56a77f40f74dce7.png

模仿学习

若给定决策范例,先验地知道什么是较好的决策,再向该策略学习,称为“模仿学习”。

1、直接模仿学习:直接模仿范例的“状态-动作”称为直接模仿学习。

2、逆强化学习:思想是设计奖赏函数较困难,可以利用范例反推出奖赏函数,再利用该奖赏函数训练强化学习。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值