强化学习的一些算法

参考资料:https://spinningup.openai.com/en/latest/spinningup/rl_intro2.

强化学习算法的种类
在这里插入图片描述

Model-Free vs Model-Based RL

强化学习算法的一个重要分支是:智能体是否有能力从环境学习一个模型。

Model-Based

优点:希望智能体能够根据自己的思考做出计划,可以观测到可能的选择值,并在选择之间做出明确的决定。

  • 重要的实现例子:AlphaZero

缺点 : 关于环境的ground-truth model可能对于智能体是不适用的,如果智能体想要在这种情况下使用模型,必须纯粹的从经验学习模型,这是一个巨大的挑战。

  • 最大的挑战在于模型中的偏差可能被智能体利用,导致智能体在学习模型的时候可以表现很好,但是在实际环境中表现却不是很理想,而且模型的学习也是很难的,所以即使话费巨大的时间与计算资源,也可能无法的得到回报。
Model Free
  • Model Free可能放弃了某些潜在的增益,但是更家容易实现与调整

What to Learn

  • Policies, either stochastic or deterministic
  • Action-value functions(Q-functions)
  • Value functions
  • And/or environment models
Policy Optimization
  • 策略: π θ ( a ∣ s ) \pi_{\theta}(a|s) πθ(as)
  • 目标函数:\(J(\pi_{\theta})\)
  • 优化方法:通过梯度上升直接优化参数\(\theta\),或者通过最大化\(J(\pi_{\theta})\)的局部近似
  • 一系列的优化方法:
    A2C / A3C : 梯度上升直接最大化performance
    PPO : 不直接最大化performance,而是代替的去优化一个目标函数,该目标函数对更新的结果进行保守估计\(J(\pi_{\theta})\) 的改变
Q-Learning

Q-Learning 是学习最优的action-value函数的一类逼近\(Q_{\theta}(s,a)\),经典的Q-Learning有使用基于Bellman equation的目标函数,这种优化策略总是performed off-policy,意味着每次更新都可以使用训练期间的任何时间点手机的数据,且不管智能体在获取数据的时候是如何explore the environment.
相关策略可以通过\(Q{*}\)和\(\pi{*}\)得到,通过Q-Learning的智能体做出的动作如下给出:
a ( s ) = a r g max ⁡ a Q θ ( s , a ) a(s)=arg \max_aQ_{\theta}(s,a) a(s)=argamaxQθ(s,a)

Q-Learning的经典算法:

  • DQN和C51
Trade-offs Between Policy Optimization and Q-Learning
  • Policy Optimization的优点在于,可以直接优化所想要优化的内容,往往是比较稳定的,而且可以信赖的;
  • Q-Learning 不直接优化agent performance,而是通过训练\(Q_{\theta}\)来满足一个self-consistency的方程,有时候会出现不稳定的情况。但是在Q-Learning work的时候,可以更有效的采集样本,比policy optimization更有效的复用数据。
Interpolating Between Policy Optimization and Q-Learning
  • 两种算法并不是不兼容的,并且存在一系列存在于两个极端之间的算法,可以权衡两种算法的利弊。
    如DDPG,SAC
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值