【自用笔记】如何理解强化学习中的Q值和V值

急急黄豆

已于 2024-03-09 19:17:52 修改

阅读量633

点赞数 1

分类专栏：强化学习文章标签：笔记

于 2024-03-01 19:37:05 首次发布

原文链接：https://zhuanlan.zhihu.com/p/109498587

版权

强化学习专栏收录该内容

5 篇文章

订阅专栏

如何理解强化学习中的Q值和V值？ - 知乎 (zhihu.com)

1 定义

1.1 评估动作的价值（Q值）：它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望，eg 共40个时隙，该动作做出可能该时隙奖励较低，但直到最后一个时隙奖励总和的期望较高，选择该动作。

1.2 评估状态的价值（V值）：它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望。

2 V值：状态节点的价值

2.1 V值的计算逻辑：从这个状态出发，到达最终状态，平均而言能拿到多少奖励。

我们从S点出发，并影分身出若干个自己;
每个分身按照当前的策略选择行为;
每个分身一直走到最终状态，并计算一路上获得的所有奖励总和;
我们计算每个影分身获得的平均值，这个平均值就是我们要求的V值。

2.2 V值作用：比较两个状态的价值，价值越高，表示从当前状态到最终状态能获得的平均奖励将会越高

2.3 例子

***结论：V值是会根据不同的策略有所变化（蒙地卡罗算法会因为随机性每次得到的V值有所不同）（这里所说的策略是从一个状态转移到另一个状态，但V值是只考虑本状态的，不考虑到达下一步的动作或下一步的状态）

3 Q值：动作节点的价值

3.1 Q值的计算逻辑：从某个状态选取动作A，走到最终状态很多很多次；最终获得奖励总和的平均值，就是Q值。（Q值与动作有关，动作决定了要到达的下一步状态的可能性，注意动并不是选择了动作能到达下一步状态，下一步状态=动作+环境随机性）

从某个状态S0下的一个动作A出发，使用影分身之术；
每个影分身走到最终状态,并记录所获得的奖励
求取所有影分身获得奖励的平均值，这个平均值就是我们需要求的Q值。

3.2 对比

V值和策略直接相关（蓝框）
Q值和环境的状态转移概率相关（绿框），eg：reset()方法

3.3 相同点

都是马可洛夫树上的节点
价值评价的方式是一样的：从当前节点出发 - 一直走到最终节点 - 所有的奖励的期望

4 换算

4.1 Q值换V值

4.1.1 一个状态的V值，就是这个状态下的所有动作的Q值，在不同策略下的期望。

4.1.2 公式：

其中策略是一个概率，在该状态s下采取行动a的概率

4.2 V值换Q值

4.2.1 Q就是V的期望，当我们选择A，并转移到新的状态时，就能获得奖励，我们必须把这个奖励也算上

4.1.2 公式

折扣率：确定未来奖励相对于即时奖励的重要性。

在强化学习中人为主观制定的一个参数。这种参数并不能推导，但在实际应用中却能解决问题，所以我们称这些参数为超参数。我们计算Q值，目的是把未来很多步奖励折算到当前节点。但未来的10点奖励不一定与当前的10点奖励是否完全等价。所以我们人为地给未来的奖励一定的折扣，例如：0.9,0.8，然后在计算到当前的Q值。

4.3 从V到V