强化学习：Q值和V值两个问题的理解

小熊er

已于 2024-07-03 17:44:44 修改

阅读量622

点赞数 10

分类专栏：强化学习文章标签：学习 python

于 2024-07-03 17:42:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53702971/article/details/140157721

版权

强化学习专栏收录该内容

3 篇文章

订阅专栏

Q值：动作价值，表示这个动作之后，一直到最终状态的价值的期望和。
V值：状态价值，表示这个状态之后，一直到最终状态的价值的期望和。

1.为什么V值和策略有关，Q值却和策略不直接相关？

马尔可夫链：
S -> A -> S -> A -> … -> A ->S

S到A是通过策略决定的。
在S0状态下，通过某个策略选择A1动作。这个策略可以是40%的概率选A1动作，60%的概率选A2动作
而A到S是由环境决定的。
这个动作为A1，由于环境的不同，所以做了A1动作之后到达的状态业不同。
因为V值和S相关，Q值和A相关，所以V值和策略有关，而Q值却和策略不直接相关。

2.为什么V值就是子节点前的Q的期望，Q就是子节点前的V的期望？

在这里插入图片描述
在上图中，V值为状态S0之后，一直到最终状态的价值的期望和。可以看到，这个状态下有很多个动作可以选择，所以这个状态的V值是它下面所有动作的Q值的期望。反过用V值求Q值也一样。

参考了这篇博客：
【强化学习入门】四.强化学习中的V值和Q值

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。