【自用笔记】如何理解强化学习中的Q值和V值

如何理解强化学习中的Q值和V值? - 知乎 (zhihu.com)

1 定义

1.1 评估动作的价值(Q值):它代表了智能体选择这个动作后,一直到最终状态奖励总和的期望,eg 共40个时隙,该动作做出可能该时隙奖励较低,但直到最后一个时隙奖励总和的期望较高,选择该动作。


1.2 评估状态的价值(V值):它代表了智能体在这个状态下,一直到最终状态的奖励总和的期望。

2 V值:状态节点的价值

2.1 V值的计算逻辑:从这个状态出发,到达最终状态,平均而言能拿到多少奖励。

  1. 我们从S点出发,并影分身出若干个自己;
  2. 每个分身按照当前的策略 选择行为;
  3. 每个分身一直走到最终状态,并计算一路上获得的所有奖励总和;
  4. 我们计算每个影分身获得的平均值,这个平均值就是我们要求的V值。

2.2 V值作用:比较两个状态的价值,价值越高,表示从当前状态最终状态能获得的平均奖励将会越高


2.3 例子

***结论:V值是会根据不同的策略有所变化(蒙地卡罗算法会因为随机性每次得到的V值有所不同)(这里所说的策略是从一个状态转移到另一个状态,但V值是只考虑本状态的,不考虑到达下一步的动作或下一步的状态)

3 Q值:动作节点的价值

3.1 Q值的计算逻辑:从某个状态选取动作A,走到最终状态很多很多次;最终获得奖励总和的平均值,就是Q值。(Q值与动作有关,动作决定了要到达的下一步状态的可能性,注意动并不是选择了动作能到达下一步状态,下一步状态=动作+环境随机性

  1. 从某个状态S0下的一个动作A出发,使用影分身之术;
  2. 每个影分身走到最终状态,并记录所获得的奖励
  3. 求取所有影分身获得奖励的平均值,这个平均值就是我们需要求的Q值。

3.2 对比

  • V值和策略直接相关(蓝框)
  • Q值和环境的状态转移概率相关(绿框),eg:reset()方法

3.3 相同点

  1.  都是马可洛夫树上的节点
  2.  价值评价的方式是一样的:从当前节点出发 - 一直走到最终节点 - 所有的奖励的期望
4 换算
4.1 Q值换V值

4.1.1 一个状态的V值,就是这个状态下的所有动作的Q值,在不同策略下的期望。

 

4.1.2 公式:

其中策略是一个概率,在该状态s下采取行动a的概率


4.2 V值换Q值

4.2.1 Q就是V的期望,当我们选择A,并转移到新的状态时,就能获得奖励,我们必须把这个奖励也算上

4.1.2 公式

折扣率:确定未来奖励相对于即时奖励的重要性。

        在强化学习中人为主观制定的一个参数。这种参数并不能推导,但在实际应用中却能解决问题,所以我们称这些参数为超参数。 我们计算Q值,目的是把未来很多步奖励折算到当前节点。但未来的10点奖励不一定与当前的10点奖励是否完全等价。所以我们人为地给未来的奖励一定的折扣,例如:0.9,0.8,然后在计算到当前的Q值。


4.3 从V到V

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值