《强化学习Sutton》读书笔记（二）——有限马尔科夫决策过程（Finite Markov Decision Processes）

最新推荐文章于 2024-05-27 16:46:38 发布

yucong96

最新推荐文章于 2024-05-27 16:46:38 发布

阅读量1.4k

点赞数 2

分类专栏：读书笔记文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yucong96/article/details/82347917

版权

此为《强化学习》第三章 Finite Markov Decision Processes。

用户-环境接口

马尔科夫决策过程 (Markov Decision Process, MDP) 是建模在交互中学习的一种直观框架。学习者和决策者被称为用户 (Agent) ，其他和用户无关的但能和用户进行交互的部分被称为环境 (Environment) 。第 $t$ 时刻，用户处于状态 $S_t$ ，得到奖励 $R_t$ ，在某个策略下选择了行为 $A_t$ ，从而进入下一个状态 $S_{t+1}$ ，得到下一个状态的奖励 $R_{t+1}$ ，如下图所示。

用户环境接口示意图

注意，有的时候环境并不会根据 $(S_t,A_t)$ 提供一组固定的 $(S_{t+1},R_{t+1})$ ，而是按概率分布随机选择一个，因此有

p (s', r | s, a) ≐ Pr {S t + 1 = s', R t + 1 = r | S t = s, A t = a}

$p(s',r|s,a) \doteq \Pr \{ S_{t+1}=s', R_{t+1}=r | S_t=s, A_t=a\}$

概率显然满足

\sum s' \in S \sum r \in R p (s', r | s, a) = 1, (\forall s \in S, a \in A)

$\sum_{s' \in \mathcal{S}} \sum_{r \in \mathcal{R}} p(s',r|s,a) = 1, ( \forall s \in \mathcal{S}, a \in \mathcal{A} )$

目标和奖励

在学习决策过程中，目标 (Goal) 是最大化累计奖励的期望值。

离散时刻下的回报

离散时刻 (Episodic) 下，我们可以把整个过程分解为一个个时刻。在 $t$ 时刻，我们定义期望回报 (Expected Return) $G_t$ 为未来各个时刻（直到最终时刻 $T$ ）得到的奖励，即

G_{t} ≐ R_{t + 1} + R_{t + 2} + . . . + R_{T}

$G_t \doteq R_{t+1} + R_{t+2} + ... + R_{T}$

通常，我们认为较近时刻得到的奖励应赋予更大的权重，因此我们给每个时刻的奖励加上一个衰减比例 (Discount Rate) $\gamma \in [0,1]$ ，即

G t ≐ R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . = \sum k = 0 \infty γ k R t + 1 + k

$G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^{\infty} \gamma^k R_{t+1+k}$

显然有

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《强化学习Sutton》读书笔记（二）——有限马尔科夫决策过程（Finite Markov Decision Processes）

此为《强化学习》第三章。用户-环境接口马尔科夫决策过程 (Markov Decision Process, MDP) 是建模在交互中学习的一种直观框架。学习者和决策者被称为用户 (Agent) ，其他和用户无关的但能和用户进行交互的部分被称为环境 (Environment) 。第ttt时刻，用户处于状态StStS_t，得到奖励RtRtR_t，在某个策略下选择了行为AtAtA_t，从而进...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。