强化学习

本文介绍了强化学习的基础概念,包括它与蒙特卡洛树搜索的联系,以及与监督学习和非监督学习的区别。强调了强化学习的八个要素,并详细阐述了马尔科夫决策过程(MDP)的应用,如状态、动作、奖励和策略。通过蒙特卡洛强化学习,讨论了如何在无模型的情况下通过随机采样近似状态-动作价值函数以优化策略。
摘要由CSDN通过智能技术生成

一、初识强化学习

1. 强化学习和蒙特卡洛树搜索

因为这两周学习了蒙特卡洛树搜索算法,当时看了相关资料介绍,蒙特卡洛方法属于强化学习的范畴,所以我就去看了西瓜书的最后一章强化学习。我看书的时候就觉得蒙特卡洛树搜索算法和强化学习有着非常紧密的联系,书上提到的exploration和exploitation、蒙特卡洛方法、奖励函数等内容和蒙特卡洛树搜索的基本思想有很多相同的地方。

2. 强化学习与机器学习

强化学习和之前学过的一些机器学习算法有着明显的不用,之前学的机器学习算法主要可以分为监督学习(分类)和非监督学习(聚类),而强化学习不同于监督学习和非监督学习,强化学习是通过奖励值来训练模型,而监督学习是通过训练数据和对应的标签来训练模型的,非监督学习没有标签也没有奖励值,是通过数据特征来训练模型的,而且强化学习的奖励值是在执行完动作后给出的,监督学习的标签是一开始就有的。

3. 强化学习八个要素

和蒙特卡洛树搜索一样,以基于强化学习的井字棋为例

  1. 环境的状态S:即棋盘的状态
  2. 个体的动作A:即某一方落子
  3. 环境的奖励R:即分出胜负后的反馈奖励
  4. 个体的策略π:即在哪落子
  5. 个体在策略π和状态s时,采取行动后的价值 v π ( s ) v_π(s) vπ(s):即在当前棋盘状态s下采取策略π下了某个子后得到的价值
  6. 奖励衰减因子γ:大小在[0,1],取0表示价值 v π ( s ) v_π(s) vπ(s)只与当前奖励有关,与后续奖励无关,但是大部分情况衰减因子是大于0的,表示价值 v π ( s ) v_π(s) vπ(s)不仅与当前奖励有关,而且与后续奖励也有关。例如下象棋的时候,马吃车的时候不仅要考虑这个动作产生的当前收益,也要考虑后续收益。
    v π ( s ) = E π ( R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . ∣ S t = s ) v_π(s)=E_π(R_{t+1}+γR_{t+2}+γ^2R_{t+3}+...|S_t=s) vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...St=s)
  7. 状态转化模型 P s s ′ a P_{ss'}^a Pssa:即在状态s下,采取动作a后转移到我状态s’的概率
  8. 探索率ϵ:即在选择落子时,以1-ϵ概率选择价值最高的动作,以ϵ概率选择其他动作

说到这就可以发现强化学习和蒙特卡洛树搜索的一些相同的地方了,前面说到蒙特卡洛树搜索中的四步选择、扩展、模拟和反向传播可以看做是上面八个要素的变形。

二、马尔科夫决策过程(MDP)

1. 为什么要引入MDP?

因为正常情况下,上面提到强化学习的状态转化模型, P s s ′ a P_{ss'}^a Pssa不仅与上个状态有关,还跟上个状态之前状态都要关系,所以为了简化强化学习模型,我们引入MDP,假设 P s s ′ a P_{ss'}^a Pssa只跟上个状态s有关(隐马尔科夫模型也有提到),同理策略 π \pi π和价值函数 v π ( s ) v_\pi(s) vπ(s)也基于这个假设。

2. MDP价值函数和贝尔曼方程

首先我们引入动作价值函数
q π ( s , a ) = E π ( R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . ∣ S t = s , A t = a ) q_π(s,a)=E_π(R_{t+1}+γR_{t+2}+γ^2R_{t+3}+...|S_t=s,A_t=a) qπ(s,a)=Eπ(Rt+1+γRt+2+γ2R

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值