强化学习基础

什么是强化学习?

强化学习是一类算法,是让计算机实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新自己的行为,从而一步步学习如何操作自己的行为得到高分。

它主要包含四个元素,Agent环境状态动作奖励,强化学习的目标就是获得最多的累计奖励。


复杂要素:

  • 策略: π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s)=P(A_t=a|S_t=s) π(as)=P(At=aSt=s)

  • 状态价值函数: V π ( s ) = E π [ R t ∣ s t = s ] V^\pi(s)=E_\pi[R_t|s_t=s] Vπ(s)=Eπ[Rtst=s] ( R t = r t + 1 + γ r t + 2 + γ 2 r t + 3 + . . . = ∑ k = 0 ∞ γ k r t + k + 1 , γ ∈ [ 0 , 1 ] R_t=r_{t+1}+\gamma r_{t+2}+\gamma ^2 r_{t+3}+...=\sum_{k=0}^\infty\gamma^kr_{t+k+1},\gamma \in[0,1] Rt=rt+1+γrt+2+γ2rt+3+...=k=0γkrt+k+1γ[0,1]),考虑当前状态的所有后续奖励,只是权重不同

  • 状态动作价值函数: Q π ( s , a ) = E π [ R t ∣ s t = s , a t = a ] Q^\pi(s,a)=E_\pi[R_t|s_t=s,a_t=a] Qπ(s,a)=Eπ[Rtst=s,at=a]

  • 状态转化概率: P s s ˊ a = P ( s t + 1 = s ˊ ∣ s t = s , a t = a ) P_{s\acute{s}}^a=P(s_{t+1}=\acute{s}|s_t=s,a_t=a) Pssˊa=P(st+1=sˊst=s,at=a)

  • 状态动作回报: R s s ˊ a = E ( r t + 1 ∣ s t + 1 = s ˊ , s t = s , a t = a ) R_{s\acute{s}}^a=E(r_{t+1}|s_{t+1}=\acute{s},s_t=s,a_t=a) Rssˊa=E(rt+1st+1=sˊ,st=s,at=a)

  • 探索率: ϵ \epsilon ϵ,避免一直选取当前迭代价值最大的动作,而错过其他动作,设置一定的概率使当前价值最大的动作不被选择


与监督学习的不同

强化学习接收来自环境的奖励信号(没有r/A梯度信息,依靠随机单元,搜索并发现正确动作),指导信息少,奖励延时

监督学习接收产生正确动作的信号,指导信息多


马尔科夫决策过程与贝尔曼方程

  • 最优决策存在定理

在这里插入图片描述

  • bellman方程:一个状态的价值由该状态的奖励以及后续状态价值按一定的衰减比例联合组成。

    V π ( s ) = E π [ r t + 1 + γ V π ( S t + 1 ) ∣ s t = s ] V^\pi(s)=E_\pi[r_{t+1}+\gamma V^\pi(S_{t+1})|s_t=s] Vπ(s)=Eπ[rt+1+γVπ(St+1)st=s]

    Q π ( s , a ) = E π ( r t + 1 + γ Q π ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ) Q^\pi(s,a)=E^\pi(r_{t+1}+\gamma Q^{\pi}(S_{t+1},A_{t+1})|S_t=s,A_t=a) Qπ(s,a)=Eπ(rt+1+γQπ(St+1,At+1)St=s,At=a)

  • 状态价值与状态动作价值
    在这里插入图片描述

    引自刘建平博客

  • 最优价值函数

    强 化 学 习 问 题 → 最 优 价 值 函 数 → 最 优 策 略 π ∗ 强化学习问题\rightarrow 最优价值函数\rightarrow最优策略\pi^* π

MDP实例:引自刘建平博客

在这里插入图片描述

假设衰减因子 γ = 1 , π ( a ∣ s ) = 0.5 \gamma=1,\pi(a|s)=0.5 γ=1,π(as)=0.5,对于终止状态,其状态价值函数为0,基于 V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ˊ ∈ S P s s ˊ a V π ( s ˊ ) ) V_\pi(s)=\sum_{a\in A}\pi(a|s)(R_s^a+\gamma\sum_{\acute{s}\in S}P_{s\acute s}^aV_\pi(\acute{s})) Vπ(s)=aAπ(as)(Rsa+γsˊSPssˊaVπ(sˊ)),

对于v1,有 v 1 = 0.5 ∗ ( 0 + v 2 ) + 0.5 ∗ ( − 1 + v 1 ) v_1=0.5*(0+v_2)+0.5*(-1+v_1) v1=0.5(0+v2)+0.5(1+v1)
对于v2,有 v 2 = 0.5 ∗ ( − 2 + v 3 ) + 0.5 ∗ ( − 1 + v 1 ) v_2=0.5*(-2+v_3)+0.5*(-1+v_1) v2=0.5(2+v3)+0.5(1+v1)
对于v3,有 v 3 = 0.5 ∗ ( − 2 + v 4 ) + 0.5 ∗ ( 0 + 0 ) v_3=0.5*(-2+v_4)+0.5*(0+0) v3=0.5(2+v4)+0.5(0+0)
对于v4,有 v 4 = 0.5 ∗ ( 10 + 0 ) + 0.5 ∗ ( 1 + 0.4 ∗ v 4 + 0.4 ∗ v 3 + 0.3 ∗ v 2 ) v_4=0.5*(10+0)+0.5*(1+0.4*v_4+0.4*v_3+0.3*v_2) v4=0.5(10+0)+0.5(1+0.4v4+0.4v3+0.3v2)

解方程得到每个状态的价值函数如下:
在这里插入图片描述

由于上面固定了策略 π ( a ∣ s ) = 0.5 \pi(a|s)=0.5 π(as)=0.5,所求得价值函数不一定是最优价值函数,我们继续求最优动作价值函数.

首先,终点框处
q ∗ ( s 3 , s l e e p ) = 0 , q ∗ ( s 4 , s t u d y ) = 10 q_*(s_3,sleep)=0,q_*(s_4,study)=10 q(s3,sleep)=0,q(s4,study)=10,
基于
q π ( s , a ) = R s a + γ ∑ s ˊ ∈ S P s s ˊ a m a x a ˊ q ∗ ( s ˊ , a ˊ ) q_\pi(s,a)=R_s^a+\gamma\sum_{\acute s\in S}P_{s\acute s}^amax_{\acute a}q_*(\acute s,\acute a) qπ(s,a)=Rsa+γsˊSPssˊamaxaˊq(sˊ,aˊ)
v ∗ ( s ) = m a x a q ∗ ( s , a ) v_*(s)=max_aq_*(s,a) v(s)=maxaq(s,a)就可以求出所有的 v ∗ ( s ) v_*(s) v(s) q ∗ ( s , a ) q_*(s,a) q(s,a)如下:
在这里插入图片描述
得到最优决策路径为 6 → 8 → 10 → 结 束 6\rightarrow 8\rightarrow 10\rightarrow 结束 6810


强化学习方法

Model-free和Model-base

Model-free:Q learning、Sarsa、Policy Gradients

Model-base:基于模型预判反馈结果,做出下一步决策 Deep Q Network

基于概率和基于价值

单步更新和回合更新

在线学习和离线学习


NAS with Reinforcement Learning

  • 当前的问题?

    超参数优化的搜索范围有限

    贝叶斯优化不灵活

    自回归的NAS是一种单步的监督更新

    神经进化方法也是基于搜索的方法,更新速度慢,需要多次迭代尝试

  • 解决方案

在这里插入图片描述

采用RNN作为行动网络预测评估网络的超参数,收到以验证集acc作为r的信号,再尝试进行获取奖励的动作。(RNN记录每次动作,时序模型)

策略梯度方法

skip连接增加网络架构复杂度

parameter server加速训练

RNN网络

参考


参考资源:

  1. NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING
  2. Automatic Machine Learning by Pipeline Synthesis using Model-Based Reinforcement Learning and a Grammar
  3. Learning to Optimize
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
图像识别技术在病虫害检测中的应用是一个快速发展的领域,它结合了计算机视觉和机器学习算法来自动识别和分类植物上的病虫害。以下是这一技术的一些关键步骤和组成部分: 1. **数据收集**:首先需要收集大量的植物图像数据,这些数据包括健康植物的图像以及受不同病虫害影响的植物图像。 2. **图像预处理**:对收集到的图像进行处理,以提高后续分析的准确性。这可能包括调整亮度、对比度、去噪、裁剪、缩放等。 3. **特征提取**:从图像中提取有助于识别病虫害的特征。这些特征可能包括颜色、纹理、形状、边缘等。 4. **模型训练**:使用机器学习算法(如支持向量机、随机森林、卷积神经网络等)来训练模型。训练过程中,算法会学习如何根据提取的特征来识别不同的病虫害。 5. **模型验证和测试**:在独立的测试集上验证模型的性能,以确保其准确性和泛化能力。 6. **部署和应用**:将训练好的模型部署到实际的病虫害检测系统中,可以是移动应用、网页服务或集成到智能农业设备中。 7. **实时监测**:在实际应用中,系统可以实时接收植物图像,并快速给出病虫害的检测结果。 8. **持续学习**:随着时间的推移,系统可以不断学习新的病虫害样本,以提高其识别能力。 9. **用户界面**:为了方便用户使用,通常会有一个用户友好的界面,显示检测结果,并提供进一步的指导或建议。 这项技术的优势在于它可以快速、准确地识别出病虫害,甚至在早期阶段就能发现问题,从而及时采取措施。此外,它还可以减少对化学农药的依赖,支持可持续农业发展。随着技术的不断进步,图像识别在病虫害检测中的应用将越来越广泛。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值