强化学习基础

最新推荐文章于 2023-10-18 08:33:45 发布

twilight_cc

最新推荐文章于 2023-10-18 08:33:45 发布

阅读量159

点赞数 1

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_43841579/article/details/101282672

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习基础

什么是强化学习？
马尔科夫决策过程与贝尔曼方程
强化学习方法
NAS with Reinforcement Learning

什么是强化学习？

强化学习是一类算法，是让计算机实现从一开始完全随机的进行操作，通过不断地尝试，从错误中学习，最后找到规律，学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新自己的行为，从而一步步学习如何操作自己的行为得到高分。

它主要包含四个元素，Agent、环境状态、动作、奖励，强化学习的目标就是获得最多的累计奖励。

复杂要素：

策略： $\pi(a|s)=P(A_t=a|S_t=s)$
状态价值函数： $V^\pi(s)=E_\pi[R_t|s_t=s]$ ( $R_t=r_{t+1}+\gamma r_{t+2}+\gamma ^2 r_{t+3}+...=\sum_{k=0}^\infty\gamma^kr_{t+k+1}，\gamma \in[0,1]$ ),考虑当前状态的所有后续奖励，只是权重不同
状态动作价值函数： $Q^\pi(s,a)=E_\pi[R_t|s_t=s,a_t=a]$
状态转化概率： $P_{s\acute{s}}^a=P(s_{t+1}=\acute{s}|s_t=s,a_t=a)$
状态动作回报： $R_{s\acute{s}}^a=E(r_{t+1}|s_{t+1}=\acute{s},s_t=s,a_t=a)$
探索率： $\epsilon$ ,避免一直选取当前迭代价值最大的动作，而错过其他动作，设置一定的概率使当前价值最大的动作不被选择

与监督学习的不同

强化学习接收来自环境的奖励信号（没有r/A梯度信息，依靠随机单元，搜索并发现正确动作），指导信息少,奖励延时

监督学习接收产生正确动作的信号，指导信息多

马尔科夫决策过程与贝尔曼方程

最优决策存在定理

在这里插入图片描述

bellman方程:一个状态的价值由该状态的奖励以及后续状态价值按一定的衰减比例联合组成。

$V^\pi(s)=E_\pi[r_{t+1}+\gamma V^\pi(S_{t+1})|s_t=s]$

$Q^\pi(s,a)=E^\pi(r_{t+1}+\gamma Q^{\pi}(S_{t+1},A_{t+1})|S_t=s,A_t=a)$
状态价值与状态动作价值

引自刘建平博客
最优价值函数

$强化学习问题\rightarrow 最优价值函数\rightarrow最优策略\pi^*$

MDP实例:引自刘建平博客

在这里插入图片描述

假设衰减因子 $\gamma=1,\pi(a|s)=0.5$ ,对于终止状态，其状态价值函数为0,基于 $V_\pi(s)=\sum_{a\in A}\pi(a|s)(R_s^a+\gamma\sum_{\acute{s}\in S}P_{s\acute s}^aV_\pi(\acute{s}))$ ,

对于v1,有 $v_1=0.5*(0+v_2)+0.5*(-1+v_1)$
对于v2,有 $v_2=0.5*(-2+v_3)+0.5*(-1+v_1)$
对于v3,有 $v_3=0.5*(-2+v_4)+0.5*(0+0)$
对于v4,有 $v_4=0.5*(10+0)+0.5*(1+0.4*v_4+0.4*v_3+0.3*v_2)$

解方程得到每个状态的价值函数如下：
在这里插入图片描述

由于上面固定了策略 $\pi(a|s)=0.5$ ,所求得价值函数不一定是最优价值函数，我们继续求最优动作价值函数.

首先，终点框处
$q_*(s_3,sleep)=0,q_*(s_4,study)=10$ ,
基于
$q_\pi(s,a)=R_s^a+\gamma\sum_{\acute s\in S}P_{s\acute s}^amax_{\acute a}q_*(\acute s,\acute a)$
$v_*(s)=max_aq_*(s,a)$ 就可以求出所有的 $v_*(s)$ 和 $q_*(s,a)$ 如下：

得到最优决策路径为 $6\rightarrow 8\rightarrow 10\rightarrow 结束$