折扣回报 Ut是从 t 时刻起,未来所有奖励的(加权)和。在 t 时刻,假如我们知道 Ut 的值,我们可以预判局势的好坏。
但是在 t 时刻Ut 仍然是个随机变量,不知道 Ut 的值。那如何预判局势的好坏?
假设我们已经观测到状态 st,而且做完决策,选中动作 at。那么 Ut 中的随机性来自 于 t + 1 时刻起的所有的状态和动作:
对 Ut 关于变量 St+1, At+1, ··· , Sn, An 求条件期望,得到:
期望中的 St = st 和 At = at 是条件,意思是已经观测到 St 与 At 的值。条件期望的结果 Qπ(st, at) 被称作动作价值函数(action-value function)。
注:
1.对随机变量求期望,就是将随机变量转为其取值的平均水平,消除其随机性)
2.更准确地说,应该叫“动作状态价值函数”,但是大家习惯性地称之为“动作价值函数”。
t 时刻的动作价值函数 Qπ(st, at) 依赖于以下三个因素:
1.当前状态 st:当前状态越好,那么价值 Qπ(st, at) 越大,也就是说回报的期 望值越大。
2.当前动作 at:智能体执行的动作越好,那么价值 Qπ(st, at) 越大。
3.策略函数 π:策略决定未来的动作 At+1, At+2, ··· , An 的好坏:策略越好,那 么 Qπ(st, at) 就越大。(不同策略函数产生不同的 At+1, At+2, ··· , An ,继而得到不同的期望值,最终影响Qπ 。
最优动作价值函数:排除掉策略 π 的影响 (最好的策略函数)
最优动作价值函数 Q⋆ 非常有用,它就像是一个先知,能指引智能体做出正确决策。
状态价值函数:衡量状态是否有利,胜算有多大。
公式里把动作 At 作为随机变量,然后关于 At 求期望,把 At 消掉。得到的状态价值函 数 Vπ(st) 只依赖于策略 π 与当前状态 st,不依赖于动作。
注:对随机变量求期望 = 求随机变量的均值 = 所有随机变量的概率*随机变量取值的累加和
状态价值函数 Vπ(st) 也是回报 Ut 的期望:
期望消掉了 Ut 依赖的随机变量 At, St+1, At+1, ··· , Sn, An。
状态价值越大,就意味着回 报的期望越大。用状态价值可以衡量策略 π 与状态 st 的好坏。