各种算法-强化学习

目录

概念

强化学习中的策略(policy):

Q-learning(Quality-learning)

强化学习中的State和Observation

强化学习agent分类


概念

奖励(reward)、代理(agent,又叫智能体)、环境(environment)、状态(state)、动作(action)

强化学习中的策略(policy):

目标策略(target policy):智能体要学习的策略

行为策略(behavior policy):智能体与环境交互的策略,即用于生成行为的策略 

Off-policy 是指行为策略和目标策略不是同一个策略,即智能体可以通过离线学习自己或别人的策略,来指导自己的行为;相反,on-policy 的行为策略和目标策略是同一个策略。

 

Q-learning(Quality-learning)

强化学习中的一种 values-based 算法,最终是会学习出一个表格 Q-Table

例如在一个游戏中有下面5种状态和4种行为,则表格为:

这个表格的每一行代表每个 state,每一列代表每个 action,表格的数值就是在各个 state 下采取各个 action 时能够获得的最大的未来期望奖励。通过 Q table 就可以找到每个状态下的最优行为,进而通过找到所有最优的action得到最大的期望奖励。

Deep Q-Network (DQN):是将深度学习与强化学习相结合,实现了从感知到动作的端到端的算法

 

强化学习中的State和Observation

State是 Environment的私有表达,我们往往不知道不会直接到。

在 马尔可夫决策过程 中,当前状态State(Markov state)包含了所有历史信息,即将来只和现在有关,与过去无关,因为现在状态包含了所有历史信息。

举个例子,在一个遵循牛顿第二定律的世界里,我们随意抛出一个小球,某一时刻 t知道了小球的速度和加速度,那么 t之后的小球的位置都可以由当前状态,根据牛顿第二定律计算出来。

再举一个夸张的例子,如果宇宙大爆炸时奇点的状态已知,那么以后的所有状态就已经确定,包括人类进化、我写这篇文章和你在阅读这篇文章都是可以根据那一状态推断出来的。当然这只是理想状况,现实往往不会那么简单(因为这只是马尔科夫的一个假设)。只有满足这样条件的状态才叫做马尔科夫状态。即:

正是因为 State太过于复杂,我们往往可以需要一个对 Environment的观察来间接获得信息,因此就有了 Observation。不过 Observation是可以等于 State的,在游戏中,一帧游戏画面完全可以代表当前状态,因此 Observation= State,此时叫做 Full Observability 

 

强化学习agent分类

Value Based:No Policy (Implicit)  ,Value Function              

Policy Based:Policy,No Value Function  

Actor Critic:Policy,Value Function  

Model Free:Policy and/or Value Function,No Model  

Model Based:Policy and/or Value Function,Model

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值