强化学习:Q值和V值两个问题的理解

Q值:动作价值,表示这个动作之后,一直到最终状态的价值的期望和。
V值:状态价值,表示这个状态之后,一直到最终状态的价值的期望和。

1.为什么V值和策略有关,Q值却和策略不直接相关?

马尔可夫链:
S -> A -> S -> A -> … -> A ->S

S到A是通过策略决定的。
在S0状态下,通过某个策略选择A1动作。这个策略可以是40%的概率选A1动作,60%的概率选A2动作
而A到S是由环境决定的。
这个动作为A1,由于环境的不同,所以做了A1动作之后到达的状态业不同。
因为V值和S相关,Q值和A相关,所以V值和策略有关,而Q值却和策略不直接相关。

2.为什么V值就是子节点前的Q的期望,Q就是子节点前的V的期望?

在这里插入图片描述
在上图中,V值为状态S0之后,一直到最终状态的价值的期望和。可以看到,这个状态下有很多个动作可以选择,所以这个状态的V值是它下面所有动作的Q值的期望。反过用V值求Q值也一样。

参考了这篇博客:
【强化学习入门】四.强化学习中的V值和Q值

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值