强化学习基础

什么是强化学习?

强化学习是一类算法,是让计算机实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新自己的行为,从而一步步学习如何操作自己的行为得到高分。

它主要包含四个元素,Agent环境状态动作奖励,强化学习的目标就是获得最多的累计奖励。


复杂要素:

  • 策略: π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s)=P(A_t=a|S_t=s) π(as)=P(At=aSt=s)

  • 状态价值函数: V π ( s ) = E π [ R t ∣ s t = s ] V^\pi(s)=E_\pi[R_t|s_t=s] Vπ(s)=Eπ[Rtst=s] ( R t = r t + 1 + γ r t + 2 + γ 2 r t + 3 + . . . = ∑ k = 0 ∞ γ k r t + k + 1 , γ ∈ [ 0 , 1 ] R_t=r_{t+1}+\gamma r_{t+2}+\gamma ^2 r_{t+3}+...=\sum_{k=0}^\infty\gamma^kr_{t+k+1},\gamma \in[0,1] Rt=rt+1+γrt+2+γ2rt+3+...=k=0γkrt+k+1γ[0,1]),考虑当前状态的所有后续奖励,只是权重不同

  • 状态动作价值函数: Q π ( s , a ) = E π [ R t ∣ s t = s , a t = a ] Q^\pi(s,a)=E_\pi[R_t|s_t=s,a_t=a] Qπ(s,a)=Eπ[Rtst=s,at=a]

  • 状态转化概率: P s s ˊ a = P ( s t + 1 = s ˊ ∣ s t = s , a t = a ) P_{s\acute{s}}^a=P(s_{t+1}=\acute{s}|s_t=s,a_t=a) Pssˊa=P(st+1=sˊst=s,at=a)

  • 状态动作回报: R s s ˊ a = E ( r t + 1 ∣ s t + 1 = s ˊ , s t = s , a t = a ) R_{s\acute{s}}^a=E(r_{t+1}|s_{t+1}=\acute{s},s_t=s,a_t=a) Rssˊa=E(rt+1st+1=sˊ,st=s,at=a)

  • 探索率: ϵ \epsilon ϵ,避免一直选取当前迭代价值最大的动作,而错过其他动作,设置一定的概率使当前价值最大的动作不被选择


与监督学习的不同

强化学习接收来自环境的奖励信号(没有r/A梯度信息,依靠随机单元,搜索并发现正确动作),指导信息少,奖励延时

监督学习接收产生正确动作的信号,指导信息多


马尔科夫决策过程与贝尔曼方程

  • 最优决策存在定理

在这里插入图片描述

  • bellman方程:一个状态的价值由该状态的奖励以及后续状态价值按一定的衰减比例联合组成。

    V π ( s ) = E π [ r t + 1 + γ V π ( S t + 1 ) ∣ s t = s ] V^\pi(s)=E_\pi[r_{t+1}+\gamma V^\pi(S_{t+1})|s_t=s] Vπ(s)=Eπ[rt+1+γVπ(St+1)st=s]

    Q π ( s , a ) = E π ( r t + 1 + γ Q π ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ) Q^\pi(s,a)=E^\pi(r_{t+1}+\gamma Q^{\pi}(S_{t+1},A_{t+1})|S_t=s,A_t=a) Qπ(s,a)=Eπ(rt+1+γQπ(St+1,At+1)St=s,At=a)

  • 状态价值与状态动作价值
    在这里插入图片描述

    引自刘建平博客

  • 最优价值函数

    强 化 学 习 问 题 → 最 优 价 值 函 数 → 最 优 策 略 π ∗ 强化学习问题\rightarrow 最优价值函数\rightarrow最优策略\pi^* π

MDP实例:引自刘建平博客

在这里插入图片描述

假设衰减因子 γ = 1 , π ( a ∣ s ) = 0.5 \gamma=1,\pi(a|s)=0.5 γ=1,π(as)=0.5,对于终止状态,其状态价值函数为0,基于 V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ˊ ∈ S P s s ˊ a V π ( s ˊ ) ) V_\pi(s)=\sum_{a\in A}\pi(a|s)(R_s^a+\gamma\sum_{\acute{s}\in S}P_{s\acute s}^aV_\pi(\acute{s})) Vπ(s)=aAπ(as)(Rsa+γsˊSPssˊaVπ(sˊ)),

对于v1,有 v 1 = 0.5 ∗ ( 0 + v 2 ) + 0.5 ∗ ( − 1 + v 1 ) v_1=0.5*(0+v_2)+0.5*(-1+v_1) v1=0.5(0+v2)+0.5(1+v1)
对于v2,有 v 2 = 0.5 ∗ ( − 2 + v 3 ) + 0.5 ∗ ( − 1 + v 1 ) v_2=0.5*(-2+v_3)+0.5*(-1+v_1) v2=0.5(2+v3)+0.5(1+v1)
对于v3,有 v 3 = 0.5 ∗ ( − 2 + v 4 ) + 0.5 ∗ ( 0 + 0 ) v_3=0.5*(-2+v_4)+0.5*(0+0) v3=0.5(2+v4)+0.5(0+0)
对于v4,有 v 4 = 0.5 ∗ ( 10 + 0 ) + 0.5 ∗ ( 1 + 0.4 ∗ v 4 + 0.4 ∗ v 3 + 0.3 ∗ v 2 ) v_4=0.5*(10+0)+0.5*(1+0.4*v_4+0.4*v_3+0.3*v_2) v4=0.5(10+0)+0.5(1+0.4v4+0.4v3+0.3v2)

解方程得到每个状态的价值函数如下:
在这里插入图片描述

由于上面固定了策略 π ( a ∣ s ) = 0.5 \pi(a|s)=0.5 π(as)=0.5,所求得价值函数不一定是最优价值函数,我们继续求最优动作价值函数.

首先,终点框处
q ∗ ( s 3 , s l e e p ) = 0 , q ∗ ( s 4 , s t u d y ) = 10 q_*(s_3,sleep)=0,q_*(s_4,study)=10 q(s3,sleep)=0,q(s4,study)=10,
基于
q π ( s , a ) = R s a + γ ∑ s ˊ ∈ S P s s ˊ a m a x a ˊ q ∗ ( s ˊ , a ˊ ) q_\pi(s,a)=R_s^a+\gamma\sum_{\acute s\in S}P_{s\acute s}^amax_{\acute a}q_*(\acute s,\acute a) qπ(s,a)=Rsa+γsˊSPssˊamaxaˊq(sˊ,aˊ)
v ∗ ( s ) = m a x a q ∗ ( s , a ) v_*(s)=max_aq_*(s,a) v(s)=maxaq(s,a)就可以求出所有的 v ∗ ( s ) v_*(s) v(s) q ∗ ( s , a ) q_*(s,a) q(s,a)如下:
在这里插入图片描述
得到最优决策路径为 6 → 8 → 10 → 结 束 6\rightarrow 8\rightarrow 10\rightarrow 结束 6810


强化学习方法

Model-free和Model-base

Model-free:Q learning、Sarsa、Policy Gradients

Model-base:基于模型预判反馈结果,做出下一步决策 Deep Q Network

基于概率和基于价值

单步更新和回合更新

在线学习和离线学习


NAS with Reinforcement Learning

  • 当前的问题?

    超参数优化的搜索范围有限

    贝叶斯优化不灵活

    自回归的NAS是一种单步的监督更新

    神经进化方法也是基于搜索的方法,更新速度慢,需要多次迭代尝试

  • 解决方案

在这里插入图片描述

采用RNN作为行动网络预测评估网络的超参数,收到以验证集acc作为r的信号,再尝试进行获取奖励的动作。(RNN记录每次动作,时序模型)

策略梯度方法

skip连接增加网络架构复杂度

parameter server加速训练

RNN网络

参考


参考资源:

  1. NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING
  2. Automatic Machine Learning by Pipeline Synthesis using Model-Based Reinforcement Learning and a Grammar
  3. Learning to Optimize
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。在编写C程序时,需要注意变量的声明和定义、指针的使用、内存的分配与释放等问题。C语言中常用的数据结构包括: 1. 数组:一种存储同类型数据的结构,可以进行索引访问和修改。 2. 链表:一种存储不同类型数据的结构,每个节点包含数据和指向下一个节点的指针。 3. 栈:一种后进先出(LIFO)的数据结构,可以通过压入(push)和弹出(pop)操作进行数据的存储和取出。 4. 队列:一种先进先出(FIFO)的数据结构,可以通过入队(enqueue)和出队(dequeue)操作进行数据的存储和取出。 5. 树:一种存储具有父子关系的数据结构,可以通过中序遍历、前序遍历和后序遍历等方式进行数据的访问和修改。 6. 图:一种存储具有节点和边关系的数据结构,可以通过广度优先搜索、深度优先搜索等方式进行数据的访问和修改。 这些数据结构在C语言中都有相应的实现方式,可以应用于各种不同的场景。C语言中的各种数据结构都有其优缺点,下面列举一些常见的数据结构的优缺点: 数组: 优点:访问和修改元素的速度非常快,适用于需要频繁读取和修改数据的场合。 缺点:数组的长度是固定的,不适合存储大小不固定的动态数据,另外数组在内存中是连续分配的,当数组较大时可能会导致内存碎片化。 链表: 优点:可以方便地插入和删除元素,适用于需要频繁插入和删除数据的场合。 缺点:访问和修改元素的速度相对较慢,因为需要遍历链表找到指定的节点。 栈: 优点:后进先出(LIFO)的特性使得栈在处理递归和括号匹配等问题时非常方便。 缺点:栈的空间有限,当数据量较大时可能会导致栈溢出。 队列: 优点:先进先出(FIFO)的特性使得
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。下面详细介绍C语言的基本概念和语法。 1. 变量和数据类型 在C语言中,变量用于存储数据,数据类型用于定义变量的类型和范围。C语言支持多种数据类型,包括基本数据类型(如int、float、char等)和复合数据类型(如结构体、联合等)。 2. 运算符 C语言中常用的运算符包括算术运算符(如+、、、/等)、关系运算符(如==、!=、、=、<、<=等)、逻辑运算符(如&&、||、!等)。此外,还有位运算符(如&、|、^等)和指针运算符(如、等)。 3. 控制结构 C语言中常用的控制结构包括if语句、循环语句(如for、while等)和switch语句。通过这些控制结构,可以实现程序的分支、循环和多路选择等功能。 4. 函数 函数是C语言中用于封装代码的单元,可以实现代码的复用和模块化。C语言中定义函数使用关键字“void”或返回值类型(如int、float等),并通过“{”和“}”括起来的代码块来实现函数的功能。 5. 指针 指针是C语言中用于存储变量地址的变量。通过指针,可以实现对内存的间接访问和修改。C语言中定义指针使用星号()符号,指向数组、字符串和结构体等数据结构时,还需要注意数组名和字符串常量的特殊性质。 6. 数组和字符串 数组是C语言中用于存储同类型数据的结构,可以通过索引访问和修改数组中的元素。字符串是C语言中用于存储文本数据的特殊类型,通常以字符串常量的形式出现,用双引号("...")括起来,末尾自动添加'\0'字符。 7. 结构体和联合 结构体和联合是C语言中用于存储不同类型数据的复合数据类型。结构体由多个成员组成,每个成员可以是不同的数据类型;联合由多个变量组成,它们共用同一块内存空间。通过结构体和联合,可以实现数据的封装和抽象。 8. 文件操作 C语言中通过文件操作函数(如fopen、fclose、fread、fwrite等)实现对文件的读写操作。文件操作函数通常返回文件指针,用于表示打开的文件。通过文件指针,可以进行文件的定位、读写等操作。 总之,C语言是一种功能强大、灵活高效的编程语言,广泛应用于各种领域。掌握C语言的基本语法和数据结构,可以为编程学习和实践打下坚实的基础
深度强化学习是结合了深度学习和强化学习的一种算法方法,它的发展历史可以追溯到强化学习和深度学习各自的起源。 强化学习是一种机器学习方法,旨在通过智能体与环境的交互来学习最优的行为策略。其基本思想是通过试错和奖励机制来引导智能体的学习过程强化学习的发展历史可以追溯到20世纪50年代的动态规划方法,随后逐渐发展出了值函数和策略函数的方法,如Q-learning和SARSA等。然而,传统的强化学习方法在处理高维、复杂的问题时面临着维度灾难和计算复杂性的挑战。 深度学习是一种基于神经网络的机器学习方法,通过多层次的神经网络模型来学习数据的表示和特征提取。深度学习在图像识别、语音识别等领域取得了巨大成功。然而,传统的深度学习方法在处理序列决策问题时存在困难,因为它们缺乏对时间序列和延迟奖励的建模能力。 深度强化学习的发展可以追溯到2013年,当时DeepMind团队提出了一种基于深度神经网络的强化学习算法——深度Q网络(DQN)。DQN通过将强化学习和深度学习相结合,成功地解决了一些复杂的游戏问题。随后,深度强化学习得到了广泛的关注和研究。 在此基础上,深度强化学习的发展又涌现出了一系列的算法,如策略梯度方法、Actor-Critic方法、Proximal Policy Optimization(PPO)等。这些算法通过引入深度神经网络来近似值函数或策略函数,进一步提高了深度强化学习在处理复杂问题上的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值