目录
概念
奖励(reward)、代理(agent,又叫智能体)、环境(environment)、状态(state)、动作(action)
强化学习中的策略(policy):
目标策略(target policy):智能体要学习的策略
行为策略(behavior policy):智能体与环境交互的策略,即用于生成行为的策略
Off-policy 是指行为策略和目标策略不是同一个策略,即智能体可以通过离线学习自己或别人的策略,来指导自己的行为;相反,on-policy 的行为策略和目标策略是同一个策略。
Q-learning(Quality-learning)
强化学习中的一种 values-based 算法,最终是会学习出一个表格 Q-Table
例如在一个游戏中有下面5种状态和4种行为,则表格为:
这个表格的每一行代表每个 state,每一列代表每个 action,表格的数值就是在各个 state 下采取各个 action 时能够获得的最大的未来期望奖励。通过 Q table 就可以找到每个状态下的最优行为,进而通过找到所有最优的action得到最大的期望奖励。
Deep Q-Network (DQN):是将深度学习与强化学习相结合,实现了从感知到动作的端到端的算法
强化学习中的State和Observation
State是 Environment的私有表达,我们往往不知道不会直接到。
在 马尔可夫决策过程 中,当前状态State(Markov state)包含了所有历史信息,即将来只和现在有关,与过去无关,因为现在状态包含了所有历史信息。
举个例子,在一个遵循牛顿第二定律的世界里,我们随意抛出一个小球,某一时刻 t知道了小球的速度和加速度,那么 t之后的小球的位置都可以由当前状态,根据牛顿第二定律计算出来。
再举一个夸张的例子,如果宇宙大爆炸时奇点的状态已知,那么以后的所有状态就已经确定,包括人类进化、我写这篇文章和你在阅读这篇文章都是可以根据那一状态推断出来的。当然这只是理想状况,现实往往不会那么简单(因为这只是马尔科夫的一个假设)。只有满足这样条件的状态才叫做马尔科夫状态。即:
正是因为 State太过于复杂,我们往往可以需要一个对 Environment的观察来间接获得信息,因此就有了 Observation。不过 Observation是可以等于 State的,在游戏中,一帧游戏画面完全可以代表当前状态,因此 Observation= State,此时叫做 Full Observability
强化学习agent分类
Value Based:No Policy (Implicit) ,Value Function
Policy Based:Policy,No Value Function
Actor Critic:Policy,Value Function
Model Free:Policy and/or Value Function,No Model
Model Based:Policy and/or Value Function,Model