智能体agent:谁做动作或决策,谁就是智能体。
环境:与智能体交互的对象。
状态state:对当前时刻环境的概括。
状态空间state space:所有可能存在状态的集合,可以是离散的、连续的。
动作action:智能体基于当前状态做出的决策。
动作空间action space:所有动作可能的集合。
奖励reward:智能体执行动作后环境返回的一个值(该值表示从一种状态转移到另一种状态后的奖励)。
累计回报:智能体与环境交互一次所获得的累计奖励(从当前状态到终止状态,当前状态获得的是真实奖励,后续状态为预估的折扣奖励)。
状态转移state transition probability function:智能体从当前时刻状态s1转移到下一时刻状态s2的过程。强化学习通常假设状态转移是随机的,随机性来自于 环境(例:在游戏你可以根据state控制自己角色的action,但是无法控制npc,npc的不可控带来了随机性)。
状态转移概率函数state transition probability function:
上式表示:在当前状态 s,智能体执行动作 a,环境的状态变成 s′ 的概率。
策略:根据观测到的状态,如何做出决策(选一个动作执行)。
强化学习的目标:得到一个策略函数。
随机策略:一个概率密度函数,表示在状态s中执行动作a的概率。
上式 输出的是一个0-1之间的概率值。
随机策略:进行随机抽样:比如10个球,8红1黄1绿,进行随机抽样时每个球都有可能抽到,只是抽到的概率不同。具有随机性
确定策略:比如10个球,8红1黄1绿,指定抽取规则:每次抽概率最大的。 不具有随机性。
可以把确定策略看做随机策略的一种特例,即概率全部集中在一个动作上,确定策略直接输出动作 a , 而不是输出概率值。
智能体与环境交互䩛agent environment interaction䩜 是指智能体观测到环境的状态 s,做出动作 a,动作会改变环境的状态,环境反馈给智能体奖励 r 以及新的状态 s′ 。
回合episodes:智能体从游戏开始到通关或者结束的过程(PS:从起始状态到终止状态即为1个episode)。
epoch:用所有训练数据进行前向计算和 反向传播,而且每条数据恰好只用一次。
epoch是一个类似episodes而又 有所区别的概念,常用于监督学习。
强化学习对样本数量的要求很高,即 便是个简单的游戏,也需要玩上万回合游戏才能学到好的策略。
强化学习中随机性的来源:1.动作 2.状态
1.动作
动作的随机性来源于随机策略,将当前时刻s输入策略函数π(a|s)得到每个动作的概率;agent在选取动作时是随机抽样,具有随机性
2.状态
状态的随机性来自于状态转移函数。当状态 s 和agent的动作 a 都被确定下来后,环境中其余单位不可控,导致下一个 状态仍然有随机性。常用状态转移函数 p(s′ |s, a) 计算所有可能的 状态的概率,然后做随机抽样,得到新的状态。
奖励:状态和动作的函数,rt = r( st, at )。
如果 At 还 没被观测到,或者 (St, At) 都没被观测到, 那么 t 时刻的奖励就有不确定性。表示为:
上式:t 时刻的奖励是随机变量,它的随机性来自于 At 或者 (St, At)。
马尔可夫性质Markov property:是下一时刻状态 St+1 仅依赖于当前状态 St 和动作 At,而不依赖于过去的状态和动作。
轨迹trajectory:是指一回合(episode)游戏中,智能体观测到的所有的状态、动 作、奖励。
已观测轨迹(都是观测值):
未观测轨迹(都是随机变量):
回报:未来奖励的总和,若当前为t时刻,则汇报为t-->end的奖励总和。也叫累计奖励。
强化学习的目标就是寻找一个策略,使得回报的期望最大化。这个策略称为 最优策略 。
强化学习的目标是最大化回报,而不是最大化当前的奖励。eg:下棋,要的是最后赢,不是这一步取得最大优势。
折扣回报:带有折扣因子的回报。(累计回报)
折扣因子:立马获得1w和一年后获得1w带来的感受肯定不一样,一年后得到肯定不如立马得到,未来期间可能存在诸多变数。所以未来的奖励相比于现在的奖励会大打折扣(此即为奖励因子)。故,奖励因子就行奖励的折扣率,常用 γ 表示。
在 MDP 中,通常使用折扣回报discounted return ,给未来的奖励做折扣。 这是折扣回报的定义:
为折扣率,对待越久远的未来,给奖励打的折扣越大。
回报中的随机性:
假设一回合游戏一共有 n 步。当完成这一回合之后,我们观测到所有 n 个奖励,此时这些奖励不是随机变量,而是实际观测到的数值。折扣回报 ut 是实际观测到的数值,不具有随机性.
但若游戏未结束:
回报 Ut 依赖于奖励 Rt, Rt+1, ··· , Rn,而这些奖励全都是未知的随机变量,所 以 Ut 也是未知的随机变量。
未来的S、A具有随机性 --> 未来的奖励R具有随机性 --> 累计汇报U具有随机性。
有限期 MDP 和无限期 MDP:
有限期 MDP :存在一个终止状态(terminal state),该状态被智能体触发后,一个回合(episode) 结束。
无限期 MDP :环境中不存在终止状态,这会导致奖励的加和趋于无穷。因此,设置一个小于 1 的折扣率是非常必要 的。