强化学习基本概念

本文介绍了强化学习的基本概念,包括智能体、环境、状态、动作、状态转移概率和策略。强调了随机策略与确定策略的区别,以及马尔可夫性质在处理未来奖励中的作用。还讨论了有限期和无限期MDP的区别,以及折扣回报的概念以处理未来奖励的不确定性。
摘要由CSDN通过智能技术生成


智能体agent谁做动作或决策,谁就是智能体。

环境:与智能体交互的对象。

状态state:对当前时刻环境的概括。

状态空间state space:所有可能存在状态的集合,可以是离散的、连续的。

动作action:智能体基于当前状态做出的决策。

动作空间action space:所有动作可能的集合。

奖励reward:智能体执行动作后环境返回的一个值(该值表示从一种状态转移到另一种状态后的奖励)。 

累计回报:智能体与环境交互一次所获得的累计奖励(从当前状态到终止状态,当前状态获得的是真实奖励,后续状态为预估的折扣奖励)。

状态转移state transition probability function:智能体从当前时刻状态s1转移到下一时刻状态s2的过程。强化学习通常假设状态转移是随机的,随机性来自于 环境(例:在游戏你可以根据state控制自己角色的action,但是无法控制npc,npc的不可控带来了随机性)。

状态转移概率函数state transition probability function:

上式表示:在当前状态 s,智能体执行动作 a,环境的状态变成 s′ 的概率。

策略:根据观测到的状态,如何做出决策(选一个动作执行)。

强化学习的目标:得到一个策略函数。

随机策略:一个概率密度函数,表示在状态s中执行动作a的概率。

 上式 输出的是一个0-1之间的概率值。

随机策略:进行随机抽样:比如10个球,8红1黄1绿,进行随机抽样时每个球都有可能抽到,只是抽到的概率不同。具有随机性

确定策略:比如10个球,8红1黄1绿,指定抽取规则:每次抽概率最大的。 不具有随机性。

可以把确定策略看做随机策略的一种特例,即概率全部集中在一个动作上,确定策略直接输出动作 a , 而不是输出概率值。
智能体与环境交互䩛agent environment interaction䩜 是指智能体观测到环境的状态 s,做出动作 a,动作会改变环境的状态,环境反馈给智能体奖励 r 以及新的状态 s′ 。

回合episodes:智能体从游戏开始到通关或者结束的过程(PS:从起始状态到终止状态即为1个episode)。

epoch:用所有训练数据进行前向计算和 反向传播,而且每条数据恰好只用一次。

epoch是一个类似episodes而又 有所区别的概念,常用于监督学习。

强化学习对样本数量的要求很高,即 便是个简单的游戏,也需要玩上万回合游戏才能学到好的策略。

强化学习中随机性的来源:1.动作   2.状态

1.动作
动作的随机性来源于随机策略,将当前时刻s输入策略函数π(a|s)得到每个动作的概率;agent在选取动作时是随机抽样,具有随机性

2.状态

状态的随机性来自于状态转移函数。当状态 s 和agent的动作 a 都被确定下来后,环境中其余单位不可控,导致下一个 状态仍然有随机性。常用状态转移函数 p(s′ |s, a) 计算所有可能的 状态的概率,然后做随机抽样,得到新的状态。

奖励:状态和动作的函数,rt = r( st, at )。
如果 At 还 没被观测到,或者 (St, At) 都没被观测到, 那么 t 时刻的奖励就有不确定性。表示为:

上式:t 时刻的奖励是随机变量,它的随机性来自于 At 或者 (St, At)。

马尔可夫性质Markov property:是下一时刻状态 St+1 仅依赖于当前状态 St 和动作 At,而不依赖于过去的状态和动作。

 轨迹trajectory:是指一回合(episode)游戏中,智能体观测到的所有的状态、动 作、奖励。

已观测轨迹(都是观测值):

 未观测轨迹(都是随机变量):

 回报:未来奖励的总和,若当前为t时刻,则汇报为t-->end的奖励总和。也叫累计奖励。

强化学习的目标就是寻找一个策略,使得回报的期望最大化。这个策略称为  最优策略 。

强化学习的目标是最大化回报,而不是最大化当前的奖励。eg:下棋,要的是最后赢,不是这一步取得最大优势。

折扣回报:带有折扣因子的回报。(累计回报)

折扣因子:立马获得1w和一年后获得1w带来的感受肯定不一样,一年后得到肯定不如立马得到,未来期间可能存在诸多变数。所以未来的奖励相比于现在的奖励会大打折扣(此即为奖励因子)。故,奖励因子就行奖励的折扣率,常用 γ 表示。

在 MDP 中,通常使用折扣回报discounted return ,给未来的奖励做折扣。 这是折扣回报的定义:

 为折扣率,对待越久远的未来,给奖励打的折扣越大。

回报中的随机性:

假设一回合游戏一共有 n 步。当完成这一回合之后,我们观测到所有 n 个奖励,此时这些奖励不是随机变量,而是实际观测到的数值。折扣回报 ut 是实际观测到的数值,不具有随机性.

但若游戏未结束:

 回报 Ut 依赖于奖励 Rt, Rt+1, ··· , Rn,而这些奖励全都是未知的随机变量,所 以 Ut 也是未知的随机变量。

 未来的S、A具有随机性 --> 未来的奖励R具有随机性 --> 累计汇报U具有随机性。

有限期 MDP 和无限期 MDP:

有限期 MDP :存在一个终止状态(terminal state),该状态被智能体触发后,一个回合(episode) 结束。

无限期 MDP :环境中不存在终止状态,这会导致奖励的加和趋于无穷。因此,设置一个小于 1 的折扣率是非常必要 的。

  • 13
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啥时候才能找到工作呀

记录学习中的疑难杂症,感谢照顾

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值