强化学习--综述3之强化学习的分类

强化学习的分类

  RL 算法可以分为基于模型的方法(Model-based)与免模型的方法(Model-free)。
  1)前者主要发展自最优控制领域。通常先通过高斯过程(GP)或贝叶斯网络(BN)等工具针对具体问题建立模型,然后再通过机器学习的方法或最优控制的方法,如模型预测控制(MPC)、线性二次调节器(LQR)、线性二次高斯(LQG)、迭代学习控制(ICL)等进行求解。
  2)而后者更多地发展自机器学习领域,属于数据驱动的方法。通过大量采样,估计代理的状态、动作的值函数或回报函数,从而优化动作策略。

两者的区别

  1)免模型方法无法从不带反馈信号的样本中学习,而反馈本身就是稀疏的,因此免模型方向样本利用率很低,而数据驱动的方法则需要大量采样。

  2)免模型方法不对具体问题进行建模,而是尝试用一个通用的算法解决所有问题。而基于模型的方法则通过针对特定问题建立模型,充分利用了问题固有的信息。免模型方法在追求通用性的同时放弃这些富有价值的信息。

  3)基于模型的方法针对问题建立动力学模型,这个模型具有解释性。而免模型方法因为没有模型,解释性不强,调试困难。

  4)相比基于模型的方法,尤其是基于简单线性模型。而后者更多地发展自机器学习领域,属于数据驱动的方法。算法的方法,免模型方法不够稳定,在训练中极易发散。

大多数RL都是将DL和免模型方法结合

  DRL 的病根多半在采用了免模型方法上。为什么多数 DRL 的工作都是基于免模型方法呢?
  1)免模型的方法相对简单直观,开源实现丰富,比较容易上手,从而吸引了更多的学者进行研究,有更大可能做出突破性的工作,如 DQN 和 AlphaGo。
  2)当前 RL 的发展还处于初级阶段,学界的研究重点还是集中在环境是确定的、静态的,状态主要是离散的、静态的、完全可观察的,反馈也是确定的问题。

使用模型方法

  基于模型的方法一般先从数据中学习模型,然后基于学到的模型对策略进行优化。
  基于模型的 DRL 方法相对而言不那么简单直观,与 DL 的结合方式相对更复杂,设计难度更高。
  基于模型的方法不仅能大幅降低采样需求,还可以通过学习任务的动力学模型,为预测学习打下基础。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值