强化学习的一点理解

最新推荐文章于 2023-12-13 20:46:32 发布

z0n1l2

最新推荐文章于 2023-12-13 20:46:32 发布

阅读量518

点赞数

分类专栏：深度学习三省吾身

本文链接：https://blog.csdn.net/z0n1l2/article/details/83834653

版权

深度学习同时被 2 个专栏收录

49 篇文章 1 订阅

订阅专栏

三省吾身

21 篇文章 0 订阅

订阅专栏

提到强化学习原理就会提到一个四元组(状态，转移概率，动作，激励)，这里要把这个四元组修改成(环境，激励，动作，状态)。假设我们是是一个程序精灵，当前处于某个状态，可以从多个候选动作里选择一个执行，还动作会导致两个结果
1 环境会反馈一个激励，来描述动作的优劣
2 动作执行影响精灵本身，让其进去另一个状态
强化学习的目的就是让精灵在探索环境的过程中，逐渐领悟到隐藏在环境中的规律，使其可以在一系列动作中获得最大的正向激励。隐藏在环境中的规律往往是难以描述的，或者是因为数量巨大，或者是因为人们还没法明确理解，否则就可以用有监督学习或无监督学习求解了。比如无人驾驶ai所面对的环境想准确描述出来求解，何其困难？

一个状态下可采取的行为往往不止一个，状态之间的转换也不是确定的，所以状态和行为，状态和状态之间是通过概率连接的。准确而言，激励是环境对(状态，动作)二元组的反馈，同一个动作在不同状态下会的到不同激励。

环境通过激励间接引导精灵学习，这涉及两个关键问题
1 初始化问题
环境是虚无的，激励实际附着在动作之上。比如在无人驾驶中，是不存在一个高高在上的环境的，而是诸如"前方有行人－＞加速降获得负的激励，减速将获得正的激励"这样的激励定义。学习初始时，人们只能人为定义一些激励。比如游戏AI中，初始时很多行为的激励都是同一个常量，但诸如直接导致game over 的行为会被赋予很大的负激励，导致游戏通关的行为会被赋予很大正的正激励。
2 激励的传播问题
激励关联到了行为上，也就间接关联到状态上，因为状态的激励就是所有关联的行为的激励的期望值，所以状态连接拥有了激励值。强化学习的过程也是激励在状态之间传播的过程。比如一个走迷宫的游戏ai，面对一个二岔路口。左边走10步后就三面墙，是个死路。我们希望精灵在路口处就发现"向左走"这个行为对应的激励远远小于"向右走"的行为。初始化时，只会把左边10步之后所有行为的激励都设置成很大的负激励，但二岔路口处左右两个行为对应的激励是一样的。强化学习训练阶段存在一个探索的概念，训练阶段，允许精灵安一定概率随机选择行为和下一个状态。当精灵探索到三面墙的状态时，会得到激励，激励会影响到前一个状态中，导致精灵面对三面墙的行为。以此类推，初始化后的激励会随着学习的进度逐渐改变，测试阶段，每个状态对应行为所关联的激励已经不是仅仅反应局部地环境，而是全局的环境信息。这是简单的贪心策略也可以引导精灵走出迷宫。
最后，如火如荼的深度学习为强化学习带来了什么呢？深度学习极大的增加了强化学习所能承受的状态数量和行为数量。考虑曾经火热的flappy bird 游戏，游戏状态包括小鸟的位置，速度和方向，管道的位置和速度，通道的位置，虽然用表格可以列举完，但也可以直接把游戏截图直接扔了进深度网络就可以了。