学习心得-强化学习【基本概念】

只为记录学习心得
学习视频来源B站up主 西湖大学空中机器人
链接:https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click&vd_source=ad94eb95d81e9e6b1a5d71459ef1a76d

本文使用的例子是Grid-world
Grid-world
蓝色代表target(目标区),是机器人的最终目标
黄色代表forbidden(禁止区),例子中虽然是禁止,但是可以进入,只不过会得到一个负反馈
机器人的任务是找到一个好的(good)路径到达目标区

State(状态)

  • State:是agent(智能体)相对于environment(环境)的一个状态

在这里插入图片描述

*在网格世界例子中,state就代表位置,如s1、s2、... 、s9*
  • State space(状态空间):所有的状态组成的一个集合,记为S
  • Action(动作):在每一个state,都会有一系列agent可采取的行动,这些行动就是action
  • 在这里插入图片描述
           网格世界例子中的action就是原地不动以及上下左右移动,共五个action,为a1~a5
    -Action space(动作空间):所有的action组成的一个集合,记A(si),si是因为每一个action是依赖state的,不同的state,那么对应的action space也不同
    -State transition(状态转移):当agent采取action时,那么state就会转移到下一个state
    如网格世界中agent原本在s1,采取了向左走的action a2,此时state就会变成s2
    在这里插入图片描述
  • State transition probability(状态转移概率):当前状态在某个条件下转换成另一个状态的概率,
           ps:这里的probability指的是conditional probability(条件概率,如p(s2|s1,a2),指在s1条件下,采取动作a2时,发生s2的概率 或 p(s2|s1),在s1条件下发生s2的概率)
  • Policy(策略):在一个state下,agent应该采取哪个action,记为π,每一个action都有概率,只不过有的是0
  • Reward(奖励):这是强化学习中非常有独特性的一个概念,它是对某个状态下agent采取某个action后得到的一个实数,可反映对该action是鼓励还是惩罚,记为r
  • Trajectory(轨迹):是一个state->action-> reward的链(从初始到目标的轨迹)
    轨迹
这里从初始s 1到目标s 9就形成了一条轨迹
  • Return(回报):不同于reward,reward是对一个state到另一个state时得到的,而return在你选择了一个初始点后,将该点的trajectory上所有的reward进行总和(ps:也就是未来的累计奖励,从当前state的到最后state中产生的所有reward累加),return越大,说明该trajectory越好,采取的policy越好,之后agent就会更大概率选择该policy
    举例:同样用上图的trajectory,若当前state为s1,那么它的return=0+0+0+1=1,若当前state为s2,那么它的return=0+0+1=1,… ,若当前state为s8,那么它的return=1=1

  • Discounted return(折扣回报):
           先思考:刚刚已经有了return,那么为什么又有discounted return,这个discounted的出现起了什么作用,它是为了克服return的哪个缺点而产生的,看下图
    折扣回报
    其实并不是每一条trajectory的长度都是有限的,也有可能在设计的时候,trajectory的长度是无限的,图中就说明了无限的情况,agent到了目标s9后,我们并没有让agent结束,而是继续用policy得到的action继续运行,这里是一直采取原地踏步的action,这时return就会无限增加下去,最后每一个state的return就会是,如从s1开始的return是,从s2开始的return是,从s3开始的return是,… ,从s8开始的也return是,而return目的是为了评判policy,现在每个return都相等,这就无法评判了
           因此需要引入discounted,具体如下图
    在这里插入图片描述
    这里Ut表示折扣回报,Rt表示当前reward,γ表示折扣因子,γ取值为[0,1)【ps:γ取0或者越接近0,即表示越注重短期的policy,因为越接近0它的次方就越快收敛到0附近,后面的policy影响就越小,越接近1则收敛越慢,就表示越注重长期的policy,这里不取1是因为取1就等于return,那么discounted就没必要体现了】
    举例如下:s5后面的reward都是3
    在这里插入图片描述
    假设γ取0.001,若从s1开始
    return =7+0.001×9+0.0012×4+0.0013×3+0.0014×3+···≈7.009
    这里0.001×9=0.009,0.0012×4=0.000004(已经可以不计了)当前policy只看到a2这短期的,后面的policy几乎无影响
    假设γ取0.999,若从s1开始
    return =7+0.999×9+0.9992×4+0.9993×3+0.9994×3+···=7+8.911+3.992+2.991+···
    可以见到收敛缓慢,后面的policy也是有影响的,计算就不计算了
    而且上述例子最终的回报都会收敛于某个值,假设reward都为1,那么根据极限,可得
    在这里插入图片描述

  • episode(回合):我理解的episode就是一个回合,它和迭代相似,当agent从开始到达terminal state(终止状态,可以理解是目标)时,就是一个episode(延申如果是multi agent时,所有agent到达目标时就是一个episode , 这些属于个人理解,不一定正确),如果一个trajectory是有限的,到目标就停止了,那么这个可叫episodic tasks,如果是无限的,就叫continuing tasks

  • Markov decision process(MDP 马尔可夫决策过程):MDP可以用来表示agent与environment交互的过程,既然是交互的过程,那么MDP就包含四要素:
    1.set【集合】:state、action、reward 这些与environment交互时产生的东西
    2.probability distribution【概率分布】:①state transition probability:在state s下,采取action a,转移到下一个state s’的概率,记p(s’|s,a),因为state有很多,相同的初始state s与相同的action a,不一定会转移到相同的state s’,所以是一个概率分布②reward probability:在state s下,采取action a,得到reward r的概率,记p(r|s,a),【突然有个疑问,①和②这概率不应该一样吗,跳到s’后,reward不也出来了,reward不就是评价一个action的好坏吗,待解决】
    3.policy:在state s下,通过policy选择action的概率,因为action有很多,policy选取某个action的概率是不一样的,记为π(a|s)
    4.MDP的性质(Markov property):memoryless property【无记忆性】:这性质是在说我当前state下,采取某个action得到下一个state或reward时,这个概率跟我当前state前的任何state都没有关系
    在这里插入图片描述
    视频里赵世钰老师有个很好的表述,可以将Markov decision process分别拆开理解,Markov就对应了马尔可夫的无记忆性,decision就对应policy,应该decision就是决定,决定就是策略(policy),process就是当从什么state跳到什么state,采取什么action等,这些都由set和probability distribution来描述
    Markov process (马尔可夫过程)和Markov decision process有什么联系?
    在MDP中,decision是policy,而policy是不确定的,如果policy是确定性的,那么MDP就等于Markov process
    在这里插入图片描述
    图示右边就是马尔可夫过程图,在某个state下采取某个action跳转到另一个state的概率

对于疑问的解答
在这里插入图片描述

       

欢迎指正!

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值