强化学习初级阶段-1

本文转自
马尔科夫决策过程:基于马尔科夫过程理论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性动态规划相结合的产物,故又称为马尔科夫型随机动态规划。

  1. 具备马尔科夫链属性:
    一个事件/物体可视为无数(状态,动作)的切片积分而成,而下一个状态 s 仅与当前状态 s 有关,与历史状态无关。例如:下棋的时候,每一步的决策都仅与当前棋局的状态有关,而下棋者是基于最终收益作为动作的策略依据。

  2. (S,A,R,P)四个变量描述
    S:State 状态序列;
    A:Action 由状态映射到动作序列;
    R:Reward 回报函数,立即回报;
    P: 状态转移概率序列。

  3. 引入值函数概率来衡量,当前状态的长期收益
    3.1 状态值函数
    Vπ=Eπ[i=0γiri|s0=s]
    γ 为折扣因子:用来加权与当前状态时间最接近的动作影响力越大;
    γ=0 时,相当于只考虑立即不考虑长期回报;
    γ=1 时,将长期回报和立即回报看得同等重要。

    3.2 加入(状态、动作)转移概率后
    Vπ=sSp(s|s,a)[r(s|s,a)+γVπ(s)]
    3.3 MDP的最优策略
    π=argmaxπVπ(s)
    即能够使得 Vπ(s) 在任意状态 s 下均能获得最大值的策略π。如何进行求解?获得最优策略的三种方法:

    3.3.1、动态规划法
    3.3.2、蒙特卡洛方法
    3.3.3、时间差分法

    3.4 动态规划法(贝尔曼方程)
    Q(s)=E[r(s|s,a)+γmaxaQ(s,a)|s0=s,as=a]
    =p(s|s,π(s))[r(s|s,π(s))+γmaxaA(s)Q(s,a)]
    3.5 Q函数-(引入了动作的值函数)
    3.5.1 定义动作值函数(Q函数)如下:
    Qπ(s,a)=E[i=0γiri|s0=s,a0=a]
    3.5.2 给定当前状态 s 和当前状态a,在未来遵循策略 π ,那么系统将以概率 p(s|s,a) 转向下个状态 s ,上式可以重写为:
    Qπ(s,a)=sSp(s|s,a)[r(s|s,a)+γVπ(s)]
    3.3 值迭代
    Q(s,a)=r+γmax(Q(sa))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值