从RL角度看MDP过程

Markov Reward Processes

任何部分可观测问题都可以转化为马尔可夫过程 MDP化

  • Markov Property
  • 状态转移概率 -> 矩阵 告诉我们在当前状态下,有多大概率到达哪个state
  • a tuple(S,P)
  • non-stationary MDP 不稳定的动态过程 如概率变化

Reward

  • a tuple (S, P, R, γ)
  • return G 强化学习的目标 γ:折扣因子 所有的returns都是有限的
  • value function v(s) -> 长期的reward 期望值
  • Bellman方程 矩阵表示: v = R + γPv (P为状态转移概率矩阵) -> 线性方程 可求解v

Action空间

  • a tuple (S, A, P, R, γ)
  • A:有限action的集合
  • policy:完全定义agent的行为 -> 决策概率 vs 环境的状态转移概率
  • v_Π(s):基于当前policy下的value function
  • 在s状态下的一个action可能到达s1,也可能到达s2
  • 离开一个state时,采取不同的action可能得到不同的reward
  • “你采取一个action,环境就给你掷一个骰子,告诉你在哪个state结束”

Best policy

  • v_*(s) = max_Π v_Π(s)
  • v_Π(s) 是在policy下 各个action对应的 q_Π(s, a) 价值的期望
  • Optimal policy -> “好”意味着更大的v_Π(s)
  • 定理:MDP中至少存在一个唯一的policy(q*) 是最佳policy,意味着它优于或至少和其他的policy一样好
  • q*是我们最想得到的最终目的值
  • 由v计算q -> 由q计算v
  • value最大值的迭代Ballman方程非线性 需要采用其他方式求解:
    -Value Iteration
    -Policy Iteration
    -Q-learning
    -Saras
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值