【强化学习的数学原理】第一章基本概念

本文链接：https://blog.csdn.net/weixin_62403234/article/details/145531840

Grid-world网格世界的例子

这个例子的任务就是找到比较好的路径从起点到终点。那么，如何定义“好”呢？在寻求更短路径的条件下，我们需要避免forbidden area，避免超越boundary。

State：描述的就是agent相对于环境中的状态，在grid-world例子中，agent的位置就是状态， $s_1,s_2,...,s_9$ 。

State space：所有状态的集合 $S={s_i}_{i=1}^9$ 。

Action：对于每个状态会有一系列的可采取的行动。

Action space of a state：一个状态上所有可能行动的集合 $A(s_i)=\left\{a_i \right\}^5_{i=1}$ 。

Sate transition：当采取一个行动时，agent从一个状态到达另一个状态。例如，从 $s_1$ 跳到了 $s_2$ ： $s_1 \overset{a_2}{\rightarrow} s_2$ 。

Forbidden area：当forbidden area可以进入但是会被惩罚时， $s_5\overset{a_2}{\rightarrow}s_6$ ；当forbidden area不能进入时， $s_5\overset{a_2}{\rightarrow}s_5$ 。
Tabular representation：
State transition probability：在状态 $s_1$ 采取行动 $a_2$ ，下一个状态就是 $s_2$ 。 $p(s_2|s_1,a_2)=1$ ， $p(s_i|s_1,a_2)=0,\forall i \neq2$ 。

Policy：告诉agent在一个状态上应该采取什么样的行动。

例子：

Reward：是一个实数、标量，如果数为正数，则鼓励这种行为，如果数为负数，则惩罚这种行为。当数值为0的时候，表示没有乘法。从某种意义上讲，正数也可以代表惩罚，负数也可以表示鼓励，这时候agent就希望要更小的reward。

如果agent尝试去走出边界，则 $r_{round}=-1$ 。
如果agent尝试进入forbidden area，则 $r_{forbid}=-1$ 。
如果agent到达target area，则 $r_{target}=+1$ 。
其他情况下，agent得到reward为 $r=0$ 。
Tabular representation：
Mathematical description：在状态 $s_1$ ，如果采取行动 $a_1$ ，可以得到reward $r=-1$ ，数学上表示为 $p(r=-1|s_1,a_1)=1,p(r\neq-1|s_1,a_1)=0$ 。

Trajectory：是一种state-action-reward 链， $s_1\xrightarrow[r=0]{a_2}s_2\xrightarrow[r=0]{a_3}s_5\xrightarrow[r=0]{a_3}s_8\xrightarrow[r=1]{a_5}s_9$ 。

Return：trajectory上reward的总和 $return=0+0+0+1=1$

Discounted return：trajectory可能是无穷的 $s_1\xrightarrow[r=0]{a_2}s_2\xrightarrow[r=0]{a_3}s_5\xrightarrow[r=0]{a_3}s_8\xrightarrow[r=1]{a_5}s_9\xrightarrow[r=1]{a_5}s_9...$ ，return是 $return=0+0+0+1+1+...=\infty$ 。如何解决这个问题呢？我们可以引入discounted rate $\gamma \in[0,1)$ ，discounted return则为 $0+\gamma0+\gamma^{2}0+\gamma^{3}1+\gamma^{4}1+...=\gamma^{3}(1+\gamma+\gamma^{2}+...)=\gamma^{3}\frac{1}{1-\gamma}$ 。

Episode：会伴随概念terminal state，当agent遵循一个policy与环境进行交互时，agent可能停止在某些terminal state上，而最终导致的trajectory称作episode， $s_1\xrightarrow[r=0]{a_2}s_2\xrightarrow[r=0]{a_3}s_5\xrightarrow[r=0]{a_3}s_8\xrightarrow[r=1]{a_5}s_9$ 。

Markov decision process（MDP）有很多要素：

集合：
State：状态S的集合。
Action：行为 $A(s)$ 的集合。
Reward：奖励 $R(s,a)$ 的集合。

概率分布：
Sate transition probability 状态转移概率： $p(s'|s,a)$
Reward probability奖励概率： $p(r|s,a)$

Policy： $\pi(a|s)$
Markov property（无记忆）： $p(s_{t+1}|a_{t+1},s_t,...,a_1,s_0)=p(s_{t+1}|a_{t+1},a_t)$ ， $p(r_{t+1}|a_{t+1},s_t,...,a_1,s_0)=p(r_{t+1}|a_{t+1},a_t)$