Q-learning时序差分强化学习算法

加油上学人

已于 2022-04-13 11:25:24 修改

阅读量1k

点赞数

分类专栏：机器学习文章标签：时序差分强化学习算法 Q-learning 强化学习

于 2022-04-12 21:32:26 首次发布

本文链接：https://blog.csdn.net/weixin_45885232/article/details/124134560

版权

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

Q-learning是基于价值迭代的强化学习算法。

在Q-learning中要定义策略的动作价值函数 $Q$ ,以表示不同状态下不同动作的价值。记策略 $\pi$ 的动作价值函数为 $Q^{\pi}(s_t,a_t)$ ，表示在状态 $s_t$ 下，执行动作 $a_t$ 带来的累积奖励 $G_t$ 的期望值。计算流程如下：

$Q^{\pi}(s_t,a_t)$ = $E[G_T|s_t,a_t]$ = $E[r_t+\gamma r_{t+1}+\gamma ^2r_{t+2}+...|s_t,a_t]$ = $E[r_t+\gamma Q^{\pi}(s_{t+1},a_{t+1})|s_t,a_t]$ （公式1）

公式1是马尔科夫决策过程中Bellman方程的基本形式，累积奖励 $G_t$ 的计算，不仅考虑当下时刻 $t$ 的动作 $a_t$ 的奖励 $r_t$ ，还会累积计算对之后决策带来的影响，公式1中的 $\gamma$ 是后续奖励的衰减因子。从公式上看，当前状态的动作价值 $Q^{\pi}(s_{t},a_{t})$ ，与当前时刻的动作的奖励 $r_t$ 以及下一状态的动作价值 $Q^{\pi}(s_{t+1},a_{t+1})$ 有关，因此，动作价值函数的计算通过动态规划算法实现，但在状态转移未知或大规模问题时不能使用。

Q-learning使用浅层的时序分差采样学习，在计算累积奖励时，基于当前的策略 $\pi$ 预测接下来发生的 $n$ 步操作并计算其奖励值。具体来说，假设在状态 $s_t$ 下选择了动作 $a_t$ 并得到了奖励 $r_t$ ，此时的状态转移到 $s_{t+1}$ ，如果此时的状态策略选择了动作 $a_{t+1}$ ,则 $Q^{\pi}(s_t,a_t)$ 可以表示为：

$Q^{\pi}(s_t,a_t)$ = $E_{s_{t+1},a_{t+1}}[r_1+\gamma A^{\pi}(s_{t+1},a_{t+1})|s_t,a_t]$

由于强化学习的目标是求最大的奖励值，因此最优策略 $\pi^*$ 对应的动作价值函数 $Q^{*}(s_t,a_t)$ 满足：

$Q^{*}(s_t,a_t)$ = $max_{\pi}Q^{\pi}(s_t,a_t)$ = $E_{s_{t+1}}[r_1+\gamma max_{a_{t+1}}Q(s_{t+1},a_{t+1})|s_t,a_t]$

在更新的时候使用梯度下降方法，并至最终收敛。

加油上学人

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Q-learning时序差分强化学习算法

Q-learning是基于价值迭代的强化学习算法。在Q-learning中要定义策略的动作价值函数QQQ,以表示不同状态下不同动作的价值。记策略π\piπ的动作价值函数为Qπ(st,at)Q^{\pi}(s_t,a_t)Qπ(st,at)，表示在状态sts_tst下，执行动作ata_tat带来的累积奖励GtG_tGt的期望值。计算流程如下：Qπ(st,at)Q^{\pi}(s_t,a_t)Qπ(st,at) = E[GT∣st,at]E[G_T|s_t,a_t]E[GT∣st,at]
复制链接

扫一扫