Q值:动作价值,表示这个动作之后,一直到最终状态的价值的期望和。
V值:状态价值,表示这个状态之后,一直到最终状态的价值的期望和。
1.为什么V值和策略有关,Q值却和策略不直接相关?
马尔可夫链:
S -> A -> S -> A -> … -> A ->S
S到A是通过策略决定的。
在S0状态下,通过某个策略选择A1动作。这个策略可以是40%的概率选A1动作,60%的概率选A2动作
而A到S是由环境决定的。
这个动作为A1,由于环境的不同,所以做了A1动作之后到达的状态业不同。
因为V值和S相关,Q值和A相关,所以V值和策略有关,而Q值却和策略不直接相关。
2.为什么V值就是子节点前的Q的期望,Q就是子节点前的V的期望?
在上图中,V值为状态S0之后,一直到最终状态的价值的期望和。可以看到,这个状态下有很多个动作可以选择,所以这个状态的V值是它下面所有动作的Q值的期望。反过用V值求Q值也一样。
参考了这篇博客:
【强化学习入门】四.强化学习中的V值和Q值