强化学习基本概念

啥时候才能找到工作呀

已于 2024-06-10 09:16:58 修改

阅读量708

点赞数 13

分类专栏：强化学习文章标签：人工智能深度学习

于 2023-12-08 20:09:18 首次发布

本文链接：https://blog.csdn.net/weixin_46683759/article/details/134885437

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了强化学习的基本概念，包括智能体、环境、状态、动作、状态转移概率和策略。强调了随机策略与确定策略的区别，以及马尔可夫性质在处理未来奖励中的作用。还讨论了有限期和无限期MDP的区别，以及折扣回报的概念以处理未来奖励的不确定性。

摘要由CSDN通过智能技术生成

智能体agent：谁做动作或决策，谁就是智能体。

环境：与智能体交互的对象。

状态state：对当前时刻环境的概括。

状态空间state space：所有可能存在状态的集合，可以是离散的、连续的。

动作action：智能体基于当前状态做出的决策。

动作空间action space：所有动作可能的集合。

奖励reward：智能体执行动作后环境返回的一个值（该值表示从一种状态转移到另一种状态后的奖励）。

累计回报：智能体与环境交互一次所获得的累计奖励（从当前状态到终止状态，当前状态获得的是真实奖励，后续状态为预估的折扣奖励）。

状态转移state transition probability function：智能体从当前时刻状态s1转移到下一时刻状态s2的过程。强化学习通常假设状态转移是随机的，随机性来自于环境（例：在游戏你可以根据state控制自己角色的action，但是无法控制npc，npc的不可控带来了随机性）。

状态转移概率函数state transition probability function：

上式表示：在当前状态 s，智能体执行动作 a，环境的状态变成 s′ 的概率。

策略：根据观测到的状态，如何做出决策（选一个动作执行）。

强化学习的目标：得到一个策略函数。

随机策略：一个概率密度函数，表示在状态s中执行动作a的概率。

上式输出的是一个0-1之间的概率值。

随机策略：进行随机抽样：比如10个球，8红1黄1绿，进行随机抽样时每个球都有可能抽到，只是抽到的概率不同。具有随机性

确定策略：比如10个球，8红1黄1绿，指定抽取规则:每次抽概率最大的。不具有随机性。

可以把确定策略看做随机策略的一种特例，即概率全部集中在一个动作上，确定策略直接输出动作 a ，而不是输出概率值。
智能体与环境交互䩛agent environment interaction䩜是指智能体观测到环境的状态 s，做出动作 a，动作会改变环境的状态，环境反馈给智能体奖励 r 以及新的状态 s′ 。

回合episodes:智能体从游戏开始到通关或者结束的过程（PS：从起始状态到终止状态即为1个episode）。

epoch：用所有训练数据进行前向计算和反向传播，而且每条数据恰好只用一次。

epoch是一个类似episodes而又有所区别的概念，常用于监督学习。

强化学习对样本数量的要求很高，即便是个简单的游戏，也需要玩上万回合游戏才能学到好的策略。

强化学习中随机性的来源：1.动作 2.状态

1.动作
动作的随机性来源于随机策略，将当前时刻s输入策略函数π(a|s)得到每个动作的概率；agent在选取动作时是随机抽样，具有随机性

2.状态

状态的随机性来自于状态转移函数。当状态 s 和agent的动作 a 都被确定下来后，环境中其余单位不可控，导致下一个状态仍然有随机性。常用状态转移函数 p(s′ |s, a) 计算所有可能的状态的概率，然后做随机抽样，得到新的状态。

奖励：状态和动作的函数，rt = r（ st, at ）。
如果 At 还没被观测到，或者 (St, At) 都没被观测到，那么 t 时刻的奖励就有不确定性。表示为：

上式：t 时刻的奖励是随机变量，它的随机性来自于 At 或者 (St, At)。

马尔可夫性质Markov property：是下一时刻状态 St+1 仅依赖于当前状态 St 和动作 At，而不依赖于过去的状态和动作。

轨迹trajectory:是指一回合（episode）游戏中，智能体观测到的所有的状态、动作、奖励。

已观测轨迹（都是观测值）：

未观测轨迹（都是随机变量）：

回报：未来奖励的总和，若当前为t时刻，则汇报为t-->end的奖励总和。也叫累计奖励。

强化学习的目标就是寻找一个策略，使得回报的期望最大化。这个策略称为最优策略。

强化学习的目标是最大化回报，而不是最大化当前的奖励。eg：下棋，要的是最后赢，不是这一步取得最大优势。

折扣回报：带有折扣因子的回报。（累计回报）

折扣因子：立马获得1w和一年后获得1w带来的感受肯定不一样，一年后得到肯定不如立马得到，未来期间可能存在诸多变数。所以未来的奖励相比于现在的奖励会大打折扣（此即为奖励因子）。故，奖励因子就行奖励的折扣率，常用 γ 表示。

在 MDP 中，通常使用折扣回报discounted return ，给未来的奖励做折扣。这是折扣回报的定义：

为折扣率，对待越久远的未来，给奖励打的折扣越大。

回报中的随机性：

假设一回合游戏一共有 n 步。当完成这一回合之后，我们观测到所有 n 个奖励,此时这些奖励不是随机变量，而是实际观测到的数值。折扣回报 ut 是实际观测到的数值，不具有随机性.

但若游戏未结束：

回报 Ut 依赖于奖励 Rt, Rt+1, ··· , Rn，而这些奖励全都是未知的随机变量，所以 Ut 也是未知的随机变量。

未来的S、A具有随机性 --> 未来的奖励R具有随机性 --> 累计汇报U具有随机性。

有限期 MDP 和无限期 MDP：

有限期 MDP ：存在一个终止状态（terminal state），该状态被智能体触发后，一个回合（episode）结束。

无限期 MDP ：环境中不存在终止状态，这会导致奖励的加和趋于无穷。因此，设置一个小于 1 的折扣率是非常必要的。

啥时候才能找到工作呀

关注

13
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习基本概念

强化学习通常假设状态转移是随机的，随机性来自于环境（例：在游戏你可以根据state控制自己角色的action，但是无法控制npc，npc的不可控带来了随机性）。智能体与环境交互䩛agent environment interaction䩜是指智能体观测到环境的状态 s，做出动作 a，动作会改变环境的状态，环境反馈给智能体奖励 r 以及新的状态 s′。因此，设置一个小于 1 的折扣率是非常必要的。常用状态转移函数 p(s′ |s, a) 计算所有可能的状态的概率，然后做随机抽样，得到新的状态。
复制链接

扫一扫