什么是强化学习?
强化学习是一类算法,是让计算机实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新自己的行为,从而一步步学习如何操作自己的行为得到高分。
它主要包含四个元素,Agent、环境状态、动作、奖励,强化学习的目标就是获得最多的累计奖励。
复杂要素:
-
策略: π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s)=P(A_t=a|S_t=s) π(a∣s)=P(At=a∣St=s)
-
状态价值函数: V π ( s ) = E π [ R t ∣ s t = s ] V^\pi(s)=E_\pi[R_t|s_t=s] Vπ(s)=Eπ[Rt∣st=s] ( R t = r t + 1 + γ r t + 2 + γ 2 r t + 3 + . . . = ∑ k = 0 ∞ γ k r t + k + 1 , γ ∈ [ 0 , 1 ] R_t=r_{t+1}+\gamma r_{t+2}+\gamma ^2 r_{t+3}+...=\sum_{k=0}^\infty\gamma^kr_{t+k+1},\gamma \in[0,1] Rt=rt+1+γrt+2+γ2rt+3+...=∑k=0∞γkrt+k+1,γ∈[0,1]),考虑当前状态的所有后续奖励,只是权重不同
-
状态动作价值函数: Q π ( s , a ) = E π [ R t ∣ s t = s , a t = a ] Q^\pi(s,a)=E_\pi[R_t|s_t=s,a_t=a] Qπ(s,a)=Eπ[Rt∣st=s,at=a]
-
状态转化概率: P s s ˊ a = P ( s t + 1 = s ˊ ∣ s t = s , a t = a ) P_{s\acute{s}}^a=P(s_{t+1}=\acute{s}|s_t=s,a_t=a) Pssˊa=P(st+1=sˊ∣st=s,at=a)
-
状态动作回报: R s s ˊ a = E ( r t + 1 ∣ s t + 1 = s ˊ , s t = s , a t = a ) R_{s\acute{s}}^a=E(r_{t+1}|s_{t+1}=\acute{s},s_t=s,a_t=a) Rssˊa=E(rt+1∣st+1=sˊ,st=s,at=a)
-
探索率: ϵ \epsilon ϵ,避免一直选取当前迭代价值最大的动作,而错过其他动作,设置一定的概率使当前价值最大的动作不被选择
与监督学习的不同
强化学习接收来自环境的奖励信号(没有r/A梯度信息,依靠随机单元,搜索并发现正确动作),指导信息少,奖励延时
监督学习接收产生正确动作的信号,指导信息多
马尔科夫决策过程与贝尔曼方程
- 最优决策存在定理
-
bellman方程:一个状态的价值由该状态的奖励以及后续状态价值按一定的衰减比例联合组成。
V π ( s ) = E π [ r t + 1 + γ V π ( S t + 1 ) ∣ s t = s ] V^\pi(s)=E_\pi[r_{t+1}+\gamma V^\pi(S_{t+1})|s_t=s] Vπ(s)=Eπ[rt+1+γVπ(St+1)∣st=s]
Q π ( s , a ) = E π ( r t + 1 + γ Q π ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ) Q^\pi(s,a)=E^\pi(r_{t+1}+\gamma Q^{\pi}(S_{t+1},A_{t+1})|S_t=s,A_t=a) Qπ(s,a)=Eπ(rt+1+γQπ(St+1,At+1)∣St=s,At=a)
-
状态价值与状态动作价值
-
最优价值函数
强 化 学 习 问 题 → 最 优 价 值 函 数 → 最 优 策 略 π ∗ 强化学习问题\rightarrow 最优价值函数\rightarrow最优策略\pi^* 强化学习问题→最优价值函数→最优策略π∗
MDP实例:引自刘建平博客
假设衰减因子 γ = 1 , π ( a ∣ s ) = 0.5 \gamma=1,\pi(a|s)=0.5 γ=1,π(a∣s)=0.5,对于终止状态,其状态价值函数为0,基于 V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ˊ ∈ S P s s ˊ a V π ( s ˊ ) ) V_\pi(s)=\sum_{a\in A}\pi(a|s)(R_s^a+\gamma\sum_{\acute{s}\in S}P_{s\acute s}^aV_\pi(\acute{s})) Vπ(s)=∑a∈Aπ(a∣s)(Rsa+γ∑sˊ∈SPssˊaVπ(sˊ)),
对于v1,有 v 1 = 0.5 ∗ ( 0 + v 2 ) + 0.5 ∗ ( − 1 + v 1 ) v_1=0.5*(0+v_2)+0.5*(-1+v_1) v1=0.5∗(0+v2)+0.5∗(−1+v1)
对于v2,有 v 2 = 0.5 ∗ ( − 2 + v 3 ) + 0.5 ∗ ( − 1 + v 1 ) v_2=0.5*(-2+v_3)+0.5*(-1+v_1) v2=0.5∗(−2+v3)+0.5∗(−1+v1)
对于v3,有 v 3 = 0.5 ∗ ( − 2 + v 4 ) + 0.5 ∗ ( 0 + 0 ) v_3=0.5*(-2+v_4)+0.5*(0+0) v3=0.5∗(−2+v4)+0.5∗(0+0)
对于v4,有 v 4 = 0.5 ∗ ( 10 + 0 ) + 0.5 ∗ ( 1 + 0.4 ∗ v 4 + 0.4 ∗ v 3 + 0.3 ∗ v 2 ) v_4=0.5*(10+0)+0.5*(1+0.4*v_4+0.4*v_3+0.3*v_2) v4=0.5∗(10+0)+0.5∗(1+0.4∗v4+0.4∗v3+0.3∗v2)
解方程得到每个状态的价值函数如下:
由于上面固定了策略 π ( a ∣ s ) = 0.5 \pi(a|s)=0.5 π(a∣s)=0.5,所求得价值函数不一定是最优价值函数,我们继续求最优动作价值函数.
首先,终点框处
q ∗ ( s 3 , s l e e p ) = 0 , q ∗ ( s 4 , s t u d y ) = 10 q_*(s_3,sleep)=0,q_*(s_4,study)=10 q∗(s3,sleep)=0,q∗(s4,study)=10,
基于
q π ( s , a ) = R s a + γ ∑ s ˊ ∈ S P s s ˊ a m a x a ˊ q ∗ ( s ˊ , a ˊ ) q_\pi(s,a)=R_s^a+\gamma\sum_{\acute s\in S}P_{s\acute s}^amax_{\acute a}q_*(\acute s,\acute a) qπ(s,a)=Rsa+γ∑sˊ∈SPssˊamaxaˊq∗(sˊ,aˊ)
v ∗ ( s ) = m a x a q ∗ ( s , a ) v_*(s)=max_aq_*(s,a) v∗(s)=maxaq∗(s,a)就可以求出所有的 v ∗ ( s ) v_*(s) v∗(s)和 q ∗ ( s , a ) q_*(s,a) q∗(s,a)如下:
得到最优决策路径为 6 → 8 → 10 → 结 束 6\rightarrow 8\rightarrow 10\rightarrow 结束 6→8→10→结束
强化学习方法
Model-free和Model-base
Model-free:Q learning、Sarsa、Policy Gradients
Model-base:基于模型预判反馈结果,做出下一步决策 Deep Q Network
基于概率和基于价值
单步更新和回合更新
在线学习和离线学习
NAS with Reinforcement Learning
-
当前的问题?
超参数优化的搜索范围有限
贝叶斯优化不灵活
自回归的NAS是一种单步的监督更新
神经进化方法也是基于搜索的方法,更新速度慢,需要多次迭代尝试
-
解决方案
采用RNN作为行动网络预测评估网络的超参数,收到以验证集acc作为r的信号,再尝试进行获取奖励的动作。(RNN记录每次动作,时序模型)
策略梯度方法
skip连接增加网络架构复杂度
parameter server加速训练
RNN网络
参考资源: