强化学习 Value-Based的公式

郑剑1996

已于 2023-02-28 21:25:06 修改

阅读量270

点赞数 1

文章标签：机器学习

于 2023-02-28 21:22:51 首次发布

本文链接：https://blog.csdn.net/zhengjian1996/article/details/129270324

版权

强化学习的Value-Based方法基于估计状态或状态动作对的值函数（value function）来指导智能体的决策。常见的value-based方法包括Q-learning、Deep Q-Network（DQN）等。

下面是强化学习中Value-Based方法的公式：

1.状态值函数（state value function）：

$V^\pi(s) = \mathbb{E}{a \sim \pi}\left[ \sum{t=0}^\infty \gamma^t r_t \middle| s_0 = s \right]$

其中， $V^\pi(s)$ 表示在策略 $\pi$ 下状态 $s$ 的价值， $a \sim \pi$ 表示从策略 $\pi$ 中随机选取动作 $a$ ， $r_t$ 表示时间步 $t$ 时获得的奖励， $\gamma$ 表示折扣因子，表示未来奖励的价值随时间的降低速率。

2.状态-动作值函数（state-action value function）：

$Q^\pi(s,a) = \mathbb{E}{\pi}\left[ \sum{t=0}^\infty \gamma^t r_t \middle| s_0 = s, a_0 = a \right]$

其中， $Q^\pi(s,a)$ 表示在策略 $\pi$ 下状态 $s$ 采取动作 $a$ 的价值。

3.Q-learning算法：

$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha \left[ r_{t+1} + \gamma \max_a Q(s_{t+1},a) - Q(s_t,a_t) \right]$

其中， $Q(s_t,a_t)$ 表示当前状态 $s_t$ 采取动作 $a_t$ 的状态-动作值函数估计， $\alpha$ 是学习率， $r_{t+1}$ 是在状态 $s_t$ 采取动作 $a_t$ 后获得的奖励， $\gamma$ 是折扣因子， $\max_a Q(s_{t+1},a)$ 表示在状态 $s_{t+1}$ 采取所有动作 $a$ 中得到的最大的状态-动作值函数估计。这个公式表示用当前估计的值函数对未来奖励的预测来更新当前的估计。

郑剑1996

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习 Value-Based的公式

强化学习的Value-Based方法基于估计状态或状态动作对的值函数（value function）来指导智能体的决策。常见的value-based方法包括Q-learning、Deep Q-Network（DQN）等。中得到的最大的状态-动作值函数估计。这个公式表示用当前估计的值函数对未来奖励的预测来更新当前的估计。表示折扣因子，表示未来奖励的价值随时间的降低速率。的状态-动作值函数估计，
复制链接

扫一扫