Value-Based Reinforcement Learning（1）

Happy_Traveller

已于 2024-05-26 20:57:51 修改

阅读量218

点赞数 1

分类专栏：强化学习文章标签：迁移学习深度学习

于 2024-05-26 20:57:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangsj1007/article/details/139219872

版权

强化学习专栏收录该内容

4 篇文章

订阅专栏

Action-Value Functions

Discounted Return（未来的reward，由于未来存在不确定性，所以未来的reward 要乘以 $\gamma$ 进行打折）

$U_{t} = R_t +\gamma R_{t+1} +\gamma ^2R_{t+2} + \gamma^3R_{t+3} + ...$

这里的 $U_t$ 依赖actions $A_{t},A_{t+1},A_{t+2},...$ ，和states $S_{t},S_{t+1},S_{t+2},...$

这里

Policy Function : $\pi (a|s) = P[A=a|S=s]$ ，表达了action的随机性

State Transition : $p(s^{'}|s,a) = P[S^{'}=s^{'}|S = s,A=a]$ ，表达了转移状态的随机性

由于存在action，和state随机性，现在想消除随机性，可以求 $U_{t}$ 的数学期望：

Action-Value Function： $Q_\pi (s_t, a_t) = E[U_t|S_t=s_t, A_t=a_t]$ ，在当前策略 $\pi$ 下，状态 $s_t$ 和 $a_t$ 的回报

Optimal Action-Value Function ： $Q^{*}(s_t, a_t) = max \pi Q_\pi (s_t, a_t)$

$Q^{*}$ 可以给任意的动作打分，agent可以根据 $Q^{*}$ 的打分，做最有利的动作

Deep Q-Network （DQN）

如果我们知道了 $Q^{*}$ ，那么每一步最好的动作 $a^{*} = argmax aQ^{*}(s,a)$

DQN的目的就是近似 $Q^{*}$ ,即神经网络 $Q(s,a;w)$ 近似 $Q^{*}(s,a)$

流程如下： $s_t$ -> $a_t$ (DQN给出) -> $s_{t+1}$ (State Transition) -> $a_{t+1}$ (DQN给出)

-> $r_t$ （监督回报，用来训练DQN）

以此类推

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。