周志华机器学习笔记-C16

Guy Black

已于 2024-10-04 08:40:39 修改

阅读量337

点赞数 6

分类专栏：周志华《机器学习》笔记文章标签：机器学习笔记人工智能

于 2024-10-04 08:09:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_61986755/article/details/142692837

版权

周志华《机器学习》笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

强化学习

依据最终奖励决定行动策略的学习过程，可视为延迟标记信息的监督学习问题。

一、强化学习模型

1、马尔科夫决策过程MDP：强化学习常用MDP进行描述，其任务对应四元组E=<X, A, P, R>，环境E，状态空间X，动作A，状态转移概率P，奖励函数R。下图为西瓜浇水的MDP。

2、强化学习目标：在环境中不断尝试以学习一个策略，即在某种状态下应当采取的动作，其优劣评价应该由长期执行后的累积奖赏作为标准。如某策略种出好瓜，累积奖赏很大，反之若枯死，则奖赏很小。累积奖赏计算方式可用T步累积奖赏和γ折扣累计奖赏计算。

二、单步强化学习——K-老虎机

考虑一步操作能获得的最大奖赏（累积奖励退化为单步奖励），即单步强化学习，其理论模型为K-老虎机。即投币后摇动摇杆以一定概率吐出硬币，但是不知道各个摇杆吐币的概率，要求在尝试中最大化受益。

1、探索与利用：两种基本策略为“仅探索”、“仅利用”。仅探索指的是平均分配机会，获取各个摇杆近似吐币概率（或说总是以平均概率选择摇杆），仅利用指的是按下目前最优摇臂，两者通常都不能使得累积奖赏最大化。

2、ε-贪：折中探索与利用的策略，每次尝试以ε的概率探索，以1-ε的概率利用。该策略不确定性较大，若概率分布较宽，则ε值需较大，否则较小即可。此外长时间探索能将奖赏很好近似，基本不需要探索，可令ε随时间减小。

3、Softmax：基于当前已知摇臂平均奖励对探索和利用进行折中。选中摇臂的概率由下述公式决定，其中超参为τ，称为“温度”，其趋于0时趋于“仅探索”，趋于无穷时趋于“仅利用”。

三、多步强化学习

包括模型E=<X, A, P, R>已知或未知的情形，此时累积奖赏是指执行策略后未来若干步的奖赏。此时认为状态空间和动作均有限。

1、有模型学习：

模型已知，根据MDP的马尔科夫性质可以推出状态值函数（即累积奖励函数，仅与初始状态和策略有关）、状态-动作值函数（从某状态出发使用某动作后再采用策略带来的累积奖励）的递归关系（以T步累积为例）。由此可以评估一个给定策略，下为伪代码。

评估后的模型若不为最优，则应该改进。评估与改进形成迭代，下为策略迭代算法。此外还有值迭代算法。

2、免模型学习：

学习算法不依赖于环境建模。首先面临模型无法评估，代替方法为多次采样，求取平均累积奖励作为期望累积奖励近似，在评估的基础上改进该策略，此即蒙特卡洛强化学习。时序差分学习结合动态规划和蒙特卡洛方法的思想，能做到更高效免模型学习。

四、值函数近似

先前假定强化学习为有限状态空间上进行，值函数亦有限，此节讨论如何获取连续状态空间的值函数。实际上，可以直接对值函数进行学习，如假设值函数为线性的，可获得Sarsa算法。

五、模仿学习

若给定决策范例，先验地知道什么是较好的决策，再向该策略学习，称为“模仿学习”。

1、直接模仿学习：直接模仿范例的“状态-动作”称为直接模仿学习。

2、逆强化学习：思想是设计奖赏函数较困难，可以利用范例反推出奖赏函数，再利用该奖赏函数训练强化学习。

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。