学习心得-强化学习【基本概念】

白菜真是菜

已于 2023-03-12 11:36:28 修改

阅读量229

点赞数 2

分类专栏：学习心得-强化日记文章标签：人工智能机器学习机器人

于 2023-03-12 11:32:24 首次发布

本文链接：https://blog.csdn.net/weixin_45739351/article/details/129369666

版权

学习心得-强化日记专栏收录该内容

5 篇文章 2 订阅

订阅专栏

只为记录学习心得
学习视频来源B站up主 西湖大学空中机器人：
链接：https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click&vd_source=ad94eb95d81e9e6b1a5d71459ef1a76d

本文使用的例子是Grid-world

蓝色代表target（目标区），是机器人的最终目标
黄色代表forbidden（禁止区），例子中虽然是禁止，但是可以进入，只不过会得到一个负反馈
机器人的任务是找到一个好的（good）路径到达目标区

State（状态）

State：是agent（智能体）相对于environment（环境）的一个状态

在这里插入图片描述

*在网格世界例子中，state就代表位置，如s1、s2、... 、s9*

State space（状态空间）：所有的状态组成的一个集合，记为S
Action（动作）：在每一个state，都会有一系列agent可采取的行动，这些行动就是action
网格世界例子中的action就是原地不动以及上下左右移动，共五个action，为a1~a5
-Action space（动作空间）：所有的action组成的一个集合，记A(si)，si是因为每一个action是依赖state的，不同的state，那么对应的action space也不同
-State transition（状态转移）：当agent采取action时，那么state就会转移到下一个state
如网格世界中agent原本在s1，采取了向左走的action a2，此时state就会变成s2
State transition probability（状态转移概率）：当前状态在某个条件下转换成另一个状态的概率，
ps:这里的probability指的是conditional probability（条件概率，如p(s₂|s₁,a₂)，指在s₁条件下，采取动作a₂时，发生s₂的概率或 p(s₂|s₁)，在s₁条件下发生s₂的概率）
Policy（策略）：在一个state下，agent应该采取哪个action，记为π，每一个action都有概率，只不过有的是0
Reward（奖励）：这是强化学习中非常有独特性的一个概念，它是对某个状态下agent采取某个action后得到的一个实数，可反映对该action是鼓励还是惩罚，记为r
Trajectory（轨迹）:是一个state->action-> reward的链（从初始到目标的轨迹）

这里从初始s ₁到目标s ₉就形成了一条轨迹

Return（回报）：不同于reward，reward是对一个state到另一个state时得到的，而return在你选择了一个初始点后，将该点的trajectory上所有的reward进行总和（ps:也就是未来的累计奖励，从当前state的到最后state中产生的所有reward累加），return越大，说明该trajectory越好，采取的policy越好，之后agent就会更大概率选择该policy
举例：同样用上图的trajectory，若当前state为s₁，那么它的return=0+0+0+1=1，若当前state为s₂，那么它的return=0+0+1=1，… ，若当前state为s₈，那么它的return=1=1
Discounted return（折扣回报）：
先思考：刚刚已经有了return，那么为什么又有discounted return，这个discounted的出现起了什么作用，它是为了克服return的哪个缺点而产生的，看下图

其实并不是每一条trajectory的长度都是有限的，也有可能在设计的时候，trajectory的长度是无限的，图中就说明了无限的情况，agent到了目标s₉后，我们并没有让agent结束，而是继续用policy得到的action继续运行，这里是一直采取原地踏步的action，这时return就会无限增加下去，最后每一个state的return就会是∞，如从s₁开始的return是∞，从s₂开始的return是∞，从s₃开始的return是∞，… ，从s₈开始的也return是∞，而return目的是为了评判policy，现在每个return都相等，这就无法评判了
因此需要引入discounted，具体如下图

这里U_t表示折扣回报，R_t表示当前reward，γ表示折扣因子，γ取值为[0,1)【ps:γ取0或者越接近0，即表示越注重短期的policy，因为越接近0它的次方就越快收敛到0附近，后面的policy影响就越小，越接近1则收敛越慢，就表示越注重长期的policy，这里不取1是因为取1就等于return，那么discounted就没必要体现了】
举例如下：s₅后面的reward都是3

假设γ取0.001，若从s₁开始
return =7+0.001×9+0.001²×4+0.001³×3+0.001⁴×3+···≈7.009
这里0.001×9=0.009，0.001²×4=0.000004（已经可以不计了）当前policy只看到a₂这短期的，后面的policy几乎无影响
假设γ取0.999，若从s₁开始
return =7+0.999×9+0.999²×4+0.999³×3+0.999⁴×3+···=7+8.911+3.992+2.991+···
可以见到收敛缓慢，后面的policy也是有影响的，计算就不计算了
而且上述例子最终的回报都会收敛于某个值，假设reward都为1，那么根据极限，可得
episode（回合）：我理解的episode就是一个回合，它和迭代相似，当agent从开始到达terminal state（终止状态，可以理解是目标）时，就是一个episode（延申如果是multi agent时，所有agent到达目标时就是一个episode ，这些属于个人理解，不一定正确），如果一个trajectory是有限的，到目标就停止了，那么这个可叫episodic tasks，如果是无限的，就叫continuing tasks
Markov decision process（MDP 马尔可夫决策过程）：MDP可以用来表示agent与environment交互的过程，既然是交互的过程，那么MDP就包含四要素：
1.set【集合】：state、action、reward 这些与environment交互时产生的东西
2.probability distribution【概率分布】：①state transition probability：在state s下，采取action a，转移到下一个state s’的概率，记p(s’|s,a)，因为state有很多，相同的初始state s与相同的action a，不一定会转移到相同的state s’，所以是一个概率分布②reward probability：在state s下，采取action a，得到reward r的概率，记p(r|s,a)，【突然有个疑问，①和②这概率不应该一样吗，跳到s’后，reward不也出来了，reward不就是评价一个action的好坏吗，待解决】
3.policy：在state s下，通过policy选择action的概率，因为action有很多，policy选取某个action的概率是不一样的，记为π(a|s)
4.MDP的性质（Markov property）：memoryless property【无记忆性】:这性质是在说我当前state下，采取某个action得到下一个state或reward时，这个概率跟我当前state前的任何state都没有关系

视频里赵世钰老师有个很好的表述，可以将Markov decision process分别拆开理解，Markov就对应了马尔可夫的无记忆性，decision就对应policy，应该decision就是决定，决定就是策略（policy），process就是当从什么state跳到什么state，采取什么action等，这些都由set和probability distribution来描述
Markov process （马尔可夫过程）和Markov decision process有什么联系？
在MDP中，decision是policy，而policy是不确定的，如果policy是确定性的，那么MDP就等于Markov process

图示右边就是马尔可夫过程图，在某个state下采取某个action跳转到另一个state的概率