【强化学习的数学原理】第一章 基本概念

Grid-world网格世界的例子

这个例子的任务就是找到比较好的路径从起点到终点。那么,如何定义“好”呢?在寻求更短路径的条件下,我们需要避免forbidden area,避免超越boundary。

State:描述的就是agent相对于环境中的状态,在grid-world例子中,agent的位置就是状态,s_1,s_2,...,s_9

State space:所有状态的集合 S={s_i}_{i=1}^9

Action:对于每个状态会有一系列的可采取的行动。

Action space of a state:一个状态上所有可能行动的集合A(s_i)=\left\{a_i \right\}^5_{i=1}

Sate transition:当采取一个行动时,agent从一个状态到达另一个状态。例如,从s_1跳到了s_2s_1 \overset{a_2}{\rightarrow} s_2

  • Forbidden area:当forbidden area可以进入但是会被惩罚时,s_5\overset{a_2}{\rightarrow}s_6;当forbidden area不能进入时,s_5\overset{a_2}{\rightarrow}s_5
  • Tabular representation:
  • State transition probability:在状态s_1采取行动a_2,下一个状态就是s_2p(s_2|s_1,a_2)=1p(s_i|s_1,a_2)=0,\forall i \neq2

Policy:告诉agent在一个状态上应该采取什么样的行动。

例子:

Reward:是一个实数、标量,如果数为正数,则鼓励这种行为,如果数为负数,则惩罚这种行为。当数值为0的时候,表示没有乘法。从某种意义上讲,正数也可以代表惩罚,负数也可以表示鼓励,这时候agent就希望要更小的reward。

  • 如果agent尝试去走出边界,则r_{round}=-1
  • 如果agent尝试进入forbidden area,则r_{forbid}=-1
  • 如果agent到达target area,则r_{target}=+1
  • 其他情况下,agent得到reward为r=0
  • Tabular representation:
  • Mathematical description:在状态s_1,如果采取行动a_1,可以得到reward r=-1,数学上表示为p(r=-1|s_1,a_1)=1,p(r\neq-1|s_1,a_1)=0

Trajectory:是一种state-action-reward 链,s_1\xrightarrow[r=0]{a_2}s_2\xrightarrow[r=0]{a_3}s_5\xrightarrow[r=0]{a_3}s_8\xrightarrow[r=1]{a_5}s_9

Return:trajectory上reward的总和 return=0+0+0+1=1

Discounted return:trajectory可能是无穷的s_1\xrightarrow[r=0]{a_2}s_2\xrightarrow[r=0]{a_3}s_5\xrightarrow[r=0]{a_3}s_8\xrightarrow[r=1]{a_5}s_9\xrightarrow[r=1]{a_5}s_9...,return是return=0+0+0+1+1+...=\infty如何解决这个问题呢?我们可以引入discounted rate \gamma \in[0,1)discounted return则为0+\gamma0+\gamma^{2}0+\gamma^{3}1+\gamma^{4}1+...=\gamma^{3}(1+\gamma+\gamma^{2}+...)=\gamma^{3}\frac{1}{1-\gamma}

Episode:会伴随概念terminal state,当agent遵循一个policy与环境进行交互时,agent可能停止在某些terminal state上,而最终导致的trajectory称作episode,s_1\xrightarrow[r=0]{a_2}s_2\xrightarrow[r=0]{a_3}s_5\xrightarrow[r=0]{a_3}s_8\xrightarrow[r=1]{a_5}s_9

Markov decision process(MDP)有很多要素:

  • 集合:
    • State:状态S的集合。
    • Action:行为A(s)的集合。
    • Reward:奖励R(s,a)的集合。
  • 概率分布:
    • Sate transition probability 状态转移概率:p(s'|s,a)
    • Reward probability奖励概率:p(r|s,a)
  • Policy:\pi(a|s)
  • Markov property(无记忆):p(s_{t+1}|a_{t+1},s_t,...,a_1,s_0)=p(s_{t+1}|a_{t+1},a_t)p(r_{t+1}|a_{t+1},s_t,...,a_1,s_0)=p(r_{t+1}|a_{t+1},a_t)

参考资料:

第1课-基本概念(State,action,policy等)_哔哩哔哩_bilibili

第1课-基本概念(Reward,return,MDP等)_哔哩哔哩_bilibili

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值