强化学习-An introduction之 马尔科夫决策过程(MDP)个人笔记

Chapter 3 马尔科夫决策过程(MDP)

MDP说白了就是面对不同的状态,采取一定行动后,有一定的概率到达某个状态。

1 state, action

最重要的两个东西就是状态和行动,强化学习说简单点就是面对不同的state采取怎样的action

2 p

p characterize the environment’s dynamics.

3 G

4 v, q

π π 的 v :

π π 的 q :

性质:

the Bellman equation for vπ v π

5 optimal

Solving a reinforcement learning task means, roughly, needing a policy that achieves a lot of reward over the long run.

Optimal policies, denoted π π ∗ . They share the same state-value function, called the optimal state-value function, denoted v v ∗ .

Optimal policies also share the same optimal action-value function, denoted q q ∗ .

two forms of the Bellman optimality equation for v v ∗

two forms of the Bellman optimality equation for q q ∗

graphically representation:

Once one has v v ∗ , it is relatively easy to determine an optimal policy.

Having q q ∗ makes choosing optimal actions even easier.

approximation

由于现实中的问题往往有很大的规模,如果用数组来一一映射每个state到action,无论是计算力还是内存都不现实,因此需要approximate value functions。

在估计最优策略时,我们往往花更多的精力去在更常见的状态最好的决策,而放弃那些很少出现的状态,这也是强化学习区别于其他的解决MDP的方法的所在之处。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值