动作价值函数、状态价值函数

折扣回报 Ut是从 t 时刻起,未来所有奖励的(加权)和。在 t 时刻,假如我们知道 Ut 的值,我们可以预判局势的好坏。

但是在 t 时刻Ut 仍然是个随机变量,不知道 Ut 的值。那如何预判局势的好坏?

假设我们已经观测到状态 st,而且做完决策,选中动作 at。那么 Ut 中的随机性来自 于 t + 1 时刻起的所有的状态和动作:

 对 Ut 关于变量 St+1, At+1, ··· , Sn, An 求条件期望,得到:

 期望中的 St = st 和 At = at 是条件,意思是已经观测到 St 与 At 的值。条件期望的结果 Qπ(st, at) 被称作动作价值函数(action-value function)。

注:

        1.对随机变量求期望,就是将随机变量转为其取值的平均水平,消除其随机性)

        2.更准确地说,应该叫“动作状态价值函数”,但是大家习惯性地称之为“动作价值函数”。

t 时刻的动作价值函数 Qπ(st, at) 依赖于以下三个因素:

        1.当前状态 st:当前状态越好,那么价值 Qπ(st, at) 越大,也就是说回报的期 望值越大。

        2.当前动作 at:智能体执行的动作越好,那么价值 Qπ(st, at) 越大。

        3.策略函数 π:策略决定未来的动作 At+1, At+2, ··· , An 的好坏:策略越好,那 么 Qπ(st, at) 就越大。(不同策略函数产生不同的 At+1, At+2, ··· , An ,继而得到不同的期望值,最终影响Qπ 。

最优动作价值函数:排除掉策略 π 的影响 (最好的策略函数)

 最优动作价值函数 Q⋆ 非常有用,它就像是一个先知,能指引智能体做出正确决策。

 状态价值函数:衡量状态是否有利,胜算有多大。

 

公式里把动作 At 作为随机变量,然后关于 At 求期望,把 At 消掉。得到的状态价值函 数 Vπ(st) 只依赖于策略 π 与当前状态 st,不依赖于动作。

注:对随机变量求期望 = 求随机变量的均值 = 所有随机变量的概率*随机变量取值的累加和

状态价值函数 Vπ(st) 也是回报 Ut 的期望:

 期望消掉了 Ut 依赖的随机变量 At, St+1, At+1, ··· , Sn, An。

状态价值越大,就意味着回 报的期望越大。用状态价值可以衡量策略 π 与状态 st 的好坏。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值