强化学习-An introduction之马尔科夫决策过程（MDP）个人笔记

最新推荐文章于 2024-05-22 00:13:16 发布

MrTriste

最新推荐文章于 2024-05-22 00:13:16 发布

阅读量459

点赞数

分类专栏：强化学习文章标签：强化学习马尔科夫决策过程 MDP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wjc1182511338/article/details/80879217

版权

强化学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Chapter 3 马尔科夫决策过程（MDP）

MDP说白了就是面对不同的状态，采取一定行动后，有一定的概率到达某个状态。

1 state, action

最重要的两个东西就是状态和行动，强化学习说简单点就是面对不同的state采取怎样的action

2 p

p characterize the environment’s dynamics.

3 G

4 v, q

对 $\pi$ 的 v :

对 $\pi$ 的 q :

性质：

the Bellman equation for $v_{\pi}$ ：

5 optimal

Solving a reinforcement learning task means, roughly, needing a policy that achieves a lot of reward over the long run.

Optimal policies, denoted $\pi _*$ . They share the same state-value function, called the optimal state-value function, denoted $v_*$ .

Optimal policies also share the same optimal action-value function, denoted $q_*$ .

two forms of the Bellman optimality equation for $v_*$ ：

two forms of the Bellman optimality equation for $q_*$ ：

graphically representation:

Once one has $v_*$ , it is relatively easy to determine an optimal policy.

Having $q_*$ makes choosing optimal actions even easier.

approximation

由于现实中的问题往往有很大的规模，如果用数组来一一映射每个state到action，无论是计算力还是内存都不现实，因此需要approximate value functions。

在估计最优策略时，我们往往花更多的精力去在更常见的状态最好的决策，而放弃那些很少出现的状态，这也是强化学习区别于其他的解决MDP的方法的所在之处。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习-An introduction之马尔科夫决策过程（MDP）个人笔记

Chapter 3 马尔科夫决策过程（MDP）MDP说白了就是面对不同的状态，采取一定行动后，有一定的概率到达某个状态。1 state, action最重要的两个东西就是状态和行动，强化学习说简单点就是面对不同的state采取怎样的action2 pp characterize the environment’s dynamics.3...
复制链接

扫一扫

专栏目录

MrTriste CSDN认证博客专家 CSDN认证企业博客

码龄9年

35: 原创

24万+: 周排名

124万+: 总排名

13万+: 访问

: 等级

1484: 积分

56: 粉丝

103: 获赞

68: 评论

236: 收藏

私信

关注

热门文章

分类专栏

最新评论

LSTM详解反向传播公式推导
不牌不改: 图全挂了。。。
循环神经网络RNN详解反向传播公式推导+代码（十分详细）
IT猿手: RNN详推可以参考https://blog.csdn.net/weixin_46204734/article/details/121531351?spm=1001.2014.3001.5501
TensorFlow实战：LSTM的结构与cell中的参数
糯米团子有点萌: [code=python] if time_step > 0: tf.get_variable_scope().reuse_variables() [/code]请问这句话有什么作用呀？
LSTM详解反向传播公式推导
学机器学习的科比: 而楼下说的为什么不是连乘，如果是连乘的话，则所有权重不共享了，说白了就是类似于BP神经网络之间的权重，BP的反向传播为什么是连乘，因为第一层W1和第二层W2有直接关系，并且不共享，两层的W完全不相同，而LSTM中，每个CELL中的权重和另外一个CELL中的权重没有直接关系，大家的权重都是一样的，并没有像BP神经网络那样，也就是说，LSTM中的某一个CELL中的权重不是由其他CELL中的权重通过操作得来的
LSTM详解反向传播公式推导
学机器学习的科比: 为什么是加等号呢，用一句话解释就是循环神经网络的权重是共享的，也就是一摸一样的，也就是说在反向传播的时候，L(损失函数)对任何一个权重求导的时候(这里假设是对遗忘门的W)对应的是共有时间步这么多的权重的边(比如时间步是10，则L对遗忘门的W求导的时候，会对应着10个边，因为每一个边都是遗忘门的W)，为了避免产生歧义，分别对每个时间步的W求导然后相加，就可以啦

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。