Lect5_Model_free_Control

最新推荐文章于 2024-09-13 23:11:11 发布

Ricky050

最新推荐文章于 2024-09-13 23:11:11 发布

阅读量130

点赞数

分类专栏： RL_by_DavidSilver_notes 文章标签：概率论机器学习强化学习

本文链接：https://blog.csdn.net/zzping01/article/details/120734161

版权

RL_by_DavidSilver_notes 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

Model Free Control

Model Free Control

Optimise the value function of an unknown MDP

On-Policy Monte-Carlo Control

Generalised Policy Iteration

在这里插入图片描述

Monte-Carlo Policy Iteration

ONE

Policy evaluation: Monte-Carlo poliy evaluation, $v_\pi$ ? or $q_\pi$ ?
Policy improvement: Greedy policy improvement?
1. Greedy policy improvement over $V (s)$ requires model of MDP (model-based).
  $\pi'(s) = \underset{a \in \mathcal{A}}{\operatorname{argmax}}\left(\mathcal{R}_s^a + \mathcal{P}_{ss'}^a V(s') \right)$
2. Greedy policy improvement over $Q (s, a)$ is model-free.
  $\pi'(s) = \underset{a \in \mathcal{A}}{\operatorname{argmax}} Q(s,a)$

so: $\Downarrow$

TWO

Policy evaluation: Monte-Carlo policy evaluation, $q_\pi$

Policy improvement: Greedy policy improvement?
初始化时价值函数一般都是同一个值，若有一个动作比较好，greedy 就会倾向于一直选这个动作，其他动作的好坏并不知道。这就是 exploration 的问题。
$\epsilon$ -Greedy Exploration: all m actions are tried with non-zero probability. With probability $1-\epsilon$ choose the greedy action. With probability $\epsilon$ choose an action at random.
$\pi(a \mid s) = \begin{cases} \epsilon/m + 1-\epsilon &\text{if}\ a^* = \underset{a \in \mathcal{A}}{\operatorname{argmax}} Q(s,a) \\ \epsilon/m &\text{otherwise} \end{cases}$

Theorem
For any $\epsilon$ -greedy policy $\pi$ , the $\epsilon$ -greedy policy $\pi'$ with respect to $q_\pi$ is an improvement, $v_{\pi'}(s) \geq v_\pi(s)$

Proof:
$\begin{aligned} q_\pi(s,\pi'(s)) &= \sum_{a \in \mathcal{A}} \pi'(a\mid s) q_\pi(s,a) \\ &= \epsilon/m \sum_{a \in \mathcal{A}} q_\pi(s,a) + (1-\epsilon)\underset{a \in \mathcal{A}}{\operatorname{max}} q_\pi(s,a) \\ &= \epsilon/m \sum_{a \in \mathcal{A}} q_\pi(s,a) + (1-\epsilon) \underset{a \in \mathcal{A}}{\operatorname{max}} q_\pi(s,a) \sum_{a\in \mathcal{A}}\frac{\pi(a \mid s) - \frac{\epsilon}{m}}{1-\epsilon} \\ &\geq \epsilon/m \sum_{a \in \mathcal{A}} q_\pi(s,a) + (1-\epsilon)\sum_{a\in \mathcal{A}}\frac{\pi(a \mid s) - \frac{\epsilon}{m}}{1-\epsilon} q_\pi(s,a) \\ &= \sum_{a \in \mathcal{A}} \pi(a \mid s)q_\pi(s,a) = v_\pi(s) \end{aligned}$
解释第三行和第四行。第三行根据 $\epsilon$ -greedy 的定义，可以算出第二个求和算式的值为1，因此是等于号。第四行将求和的部分当作 $q_\pi(s,a)$ 的权值，很容易想象， $q_\pi(s,a)$ 每一项加权求和一定小于等于其最大值。

另外可能的误会： $\frac{\pi(a \mid s) - \frac{\epsilon}{m}}{1-\epsilon}$ 仅 $q_\pi(s,a)$ 为最大值时的action计算结果为： $\frac{\pi(a \mid s) - \frac{\epsilon}{m}}{1-\epsilon} =1$ ，其余action计算出来为： $\frac{\pi(a \mid s) - \frac{\epsilon}{m}}{1-\epsilon} = 0$ ，因此第四行应该是等于号。如果这么认为的话，就相当于 $\pi$ and $\pi'$ 没有区别了，要注意 $\underset{a \in \mathcal{A}}{\operatorname{max}}q_\pi(s,a)$ 中选中的 action 是 $\pi'$ 根据 $q_\pi(s,a)$ 最大值选取的，这个action与 $\pi(a \mid s) = \epsilon/m + 1-\epsilon$ 时的action 并不一定是同一个。如果是同一个就是等于号了。

so: $\Downarrow$

THREE

在这里插入图片描述

Policy evaluation: Monte-Carlo policy evaluation, $q_\pi$
Policy improvement: $\epsilon$ -Greedy policy improvement

Pseudocode

在这里插入图片描述

Monte-Carlo Control

在这里插入图片描述

Every episode

Policy evaluation: Monte-Carlo policy evaluation, $\approx q_\pi$
Policy improvement: $\epsilon$ -Greedy policy improvement

不用等很多个episode来估算Q，每一个episode完直接更新

GLIE Monte-Carlo Control

Definition of GLIE:

Greedy in the Limit with Infinite Exploration (GLIE)

All state-action pairs are explored infinitely many times
$\lim_{k\to \infty}N_k(s,a) = \infty$
The policy converges on a greedy policy
$\lim_{k\to \infty} \pi_k(a\mid s) = 1\left(a=\underset{a' \in \mathcal{A}}{\operatorname{arg\,max}}Q_k(s,a') \right)$

Algorithm:

Sample kth episode using $\pi: \{S_1, A_1, R_2, \dots, S_T\} \sim \pi$
For each state $S_t$ and action $A_t$ in the episode
$\begin{aligned} N(S_t,A_t) &\leftarrow N(S_t, A_t) + 1 \\ Q(S_t,A_t) &\leftarrow Q(S_t,A_t) + \frac{1}{N(S_t,A_t)}(G_t - Q(S_t,A_t)) \end{aligned}$
Improve policy based on new action-value function
$\begin{aligned} \epsilon &\leftarrow 1/k \qquad \qquad \text{逐渐增大选择使Q最大的action的概率} \\ \pi &\leftarrow \epsilon \text{-greedy}(Q) \end{aligned}$

On-Policy Temporal-Difference Learning

Natural diet: use TD instead of MC in control loop

Apply TD to $Q (S, A)$
Use $\epsilon$ -greedy policy improvement
Update every time-step

Update Action-Value Functions with Sarsa

在这里插入图片描述

On-Policy Control With Sarsa

在这里插入图片描述

Every time-step:

Policy evaluation Sarsa, $\approx q_\pi$

Policy improvement $\epsilon$ -greedy policy improvement

Sarsa Algorithm:

在这里插入图片描述

Sarsa( $\lambda$ )

n-step Sarsa

Consider the following n-step returns for $1,2,\dots, \infty$

$\begin{aligned} n=1 \text{(Sarsa)} \quad \ q_t^{(1)} &= R_{t+1} + \gamma Q(S_{t+1}) \\ n=2 \qquad \quad \quad \ \ q_t^{(2)} &= R_{t+1} + +\gamma R_{t+2} + \gamma^2 Q(S_{t+1}) \\ \vdots \\ n=\infty \text{(MC)} \quad \ q_t^{(\infty)} &= R_{t+1} + +\gamma R_{t+2} + \dots + \gamma^{T-1}R_T \end{aligned}$

Define the n-step Q-return
$q_t^{(n)} = R_{t+1} + +\gamma R_{t+2} + \dots + \gamma^{n-1}R_{t+n} + \gamma^n Q(S_{t+n})$
n-step Sarsa updates Q(s,a) towards the n-step Q-return

$Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha \left(q_t^{(n)} - Q(S_t,A_t) \right)$

Forward View Sarsa( $\lambda$ )

combines all n-step Q-returns $q_t^{(n)}$
Using weight $(1-\lambda)\lambda^{n-1}$
$q_t^\lambda = (1-\lambda)\sum_{n=1}^{\infty}\lambda^{n-1}q_t^{(n)}$
Forward-view Sarsa( $\lambda$ )
$Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha \left(q_t^\lambda - Q(S_t,A_t) \right)$

Backward View Sarsa( $\lambda$ )

参考Lect4中关于TD( $\lambda$ )的backward-view的部分，这里不详细展开。

Just like TD( $\lambda$ ), we use eligibility trace in an online algorithm
But Sarsa( $\lambda$ ) has one eligibility trace for each state-action pair
$\begin{aligned} E_0(s,a) &= 0 \\ E_t(s,a) &= \gamma \lambda E_{t-1}(s,a) + 1(S_t = s, A_t = a) \end{aligned}$
$Q (s, a)$ is updated for every state s and action a
In proportion to TD-error $\delta_t$ and eligibility trace $E_t(s,a)$
$\begin{aligned} \delta_t &= R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t) \\ Q(s,a) &\leftarrow Q(S,a) + \alpha \delta_t E_t(s,a) \end{aligned}$

Sarsa( $\lambda$ ) Algorithm

在这里插入图片描述

Off-Policy Learning

Importance Sampling

Estimate the expectation of a different distribution:
$\begin{aligned} \mathbb{E}_{X \sim P}[f(X)] &= \sum P(X)f(X) \\ &= \sum Q(X) \frac{P(X)}{Q(X)}f(X) \\ &= \mathbb{E}_{X \sim Q}\left[\frac{P(X)}{Q(X)}f(X) \right] \end{aligned}$

Important Sampling for Off-Policy Monte-Carlo

Use returns generated from $\mu$ to evaluate $\pi$
Weight return $G_t$ according to similarity between policies, multiply improtance sampling corrections along whole episode
$G_t^{\pi/\mu} = \frac{\pi(A_t \mid S_t)}{\mu(A_t \mid S_t)} \frac{\pi(A_{t+1} \mid S_{t+1})}{\mu(A_{t+1} \mid S_{t+1})} \dots \frac{\pi(A_T \mid S_T)}{\mu(A_T \mid S_T)} G_T$
Update value towards corrected return
$V(S_t) \leftarrow V(S_t) + \alpha \left({\color{red}G_t^{\pi/\mu}} - V(S_t) \right)$
Importance sampling can dramatically increase variance

Important Sampling for Off-Policy TD

Use TD targets generated from $\mu$ to evaluate $\pi$
Weight TD target $\gamma V(S')$ by importance sampling, only need a single improtance sampling correction
$V(S_t) \leftarrow V(S_t) + \alpha \left({\color{red}{\frac{\pi(A_t \mid S_t)}{\mu(A_t \mid S_t)}\left(R_{t+1} + \gamma V(S_{t+1}) \right)}} - V(S_t) \right)$
Much lower variance than Monte-Carlo improtance sampling
Policies only need to be similar over a single step

Off-Policy Q-Learning

在状态 $S_t$ 时，根据 behavior policy 选取 action： $A_t \sim \mu(\cdot \mid S_t)$ ，得到相应的奖励 $R_{t+1}$ ，而后达到了状态 $S_{t+1}$ ，此时根据 estimate policy 选取action： $A_{t+1} \sim \pi(\cdot \mid S_{t+1})$ 。将这个action记为 $A^{'}$

更新： $Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha \left({\color{red}{R_{t+1} + \gamma Q(S_{t+1},A')}}- Q(S_t,A_t) \right)$

Special Case

The target policy $\pi$ is greedy w.r.t. $Q (s, a)$
$\pi(S_{t+1}) = \underset{a'}{\operatorname{arg\,max}} Q(S_{t+1},a')$
The behavior policy $\mu$ is $\epsilon$ -greedy w.r.t. $Q (s, a)$

The Q-learning target then simplifies:
$\begin{aligned} R_{t+1} + \gamma Q(S_{t+1}, A') &= R_{t+1} + \gamma Q(S_{t+1}, \underset{a'}{\operatorname{arg\,max}} Q(S_{t+1},a')) \\ &= R_{t+1} + \underset{a'}{\operatorname{max}} \gamma Q(S_{t+1},a') \end{aligned}$
Algorithm: