强化学习--综述3之强化学习的分类

最新推荐文章于 2024-05-27 10:11:45 发布

whitenightwu

最新推荐文章于 2024-05-27 10:11:45 发布

阅读量2.3k

点赞数 3

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wydbyxr/article/details/83617098

版权

强化学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

强化学习的分类

RL 算法可以分为基于模型的方法(Model-based)与免模型的方法(Model-free)。
1）前者主要发展自最优控制领域。通常先通过高斯过程(GP)或贝叶斯网络(BN)等工具针对具体问题建立模型,然后再通过机器学习的方法或最优控制的方法,如模型预测控制(MPC)、线性二次调节器(LQR)、线性二次高斯(LQG)、迭代学习控制(ICL)等进行求解。
2）而后者更多地发展自机器学习领域,属于数据驱动的方法。通过大量采样,估计代理的状态、动作的值函数或回报函数,从而优化动作策略。

两者的区别

1）免模型方法无法从不带反馈信号的样本中学习,而反馈本身就是稀疏的,因此免模型方向样本利用率很低,而数据驱动的方法则需要大量采样。

2）免模型方法不对具体问题进行建模,而是尝试用一个通用的算法解决所有问题。而基于模型的方法则通过针对特定问题建立模型,充分利用了问题固有的信息。免模型方法在追求通用性的同时放弃这些富有价值的信息。

3）基于模型的方法针对问题建立动力学模型,这个模型具有解释性。而免模型方法因为没有模型,解释性不强,调试困难。

4）相比基于模型的方法,尤其是基于简单线性模型。而后者更多地发展自机器学习领域,属于数据驱动的方法。算法的方法,免模型方法不够稳定,在训练中极易发散。

大多数RL都是将DL和免模型方法结合

DRL 的病根多半在采用了免模型方法上。为什么多数 DRL 的工作都是基于免模型方法呢？
1）免模型的方法相对简单直观,开源实现丰富,比较容易上手,从而吸引了更多的学者进行研究,有更大可能做出突破性的工作,如 DQN 和 AlphaGo。
2）当前 RL 的发展还处于初级阶段,学界的研究重点还是集中在环境是确定的、静态的,状态主要是离散的、静态的、完全可观察的,反馈也是确定的问题。

使用模型方法

基于模型的方法一般先从数据中学习模型,然后基于学到的模型对策略进行优化。
基于模型的 DRL 方法相对而言不那么简单直观,与 DL 的结合方式相对更复杂,设计难度更高。
基于模型的方法不仅能大幅降低采样需求,还可以通过学习任务的动力学模型,为预测学习打下基础。

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
强化学习--综述3之强化学习的分类

强化学习的分类 RL 算法可以分为基于模型的方法(Model-based)与免模型的方法(Model-free)。 1）前者主要发展自最优控制领域。通常先通过高斯过程(GP)或贝叶斯网络(BN)等工具针对具体问题建立模型,然后再通过机器学习的方法或最优控制的方法,如模型预测控制(MPC)、线性二次调节器(LQR)、线性二次高斯(LQG)、迭代学习控制(ICL)等进行求解。 2）而后者更...
复制链接

扫一扫

专栏目录

whitenightwu CSDN认证博客专家 CSDN认证企业博客

码龄8年

478: 原创

3万+: 周排名

189万+: 总排名

204万+: 访问

: 等级

1万+: 积分

453: 粉丝

781: 获赞

218: 评论

3287: 收藏

私信

关注

热门文章

分类专栏

最新评论

训练过程--Batchsize（总之一般情况下batchsize能设多大就设多大）
穆清plus: 有答案了吗
训练过程--Batchsize（总之一般情况下batchsize能设多大就设多大）
qq_45915612: 我的理解是在一阶优化器的时候用小的batchsize，二阶优化器的时候用大的batchsize。博主的意思应该是，batchsize小的时候，数据方差大，相对大的batchsize来说噪声大梯度下降的波动大，在一阶优化器中还是可以接受的，甚至这些波动是让网络模型跳出局部最优点的一个闪光点，但是如果使用二阶优化器的话，梯度下降的波动会更剧烈（一顿乱跳，跳出了局部最优点，也跳过了全局最优点），就会比一阶更不稳定，loss可能会直接炸了。当然，这是我很粗浅的理解，不一定对。
训练过程--Batchsize（总之一般情况下batchsize能设多大就设多大）
qq_45915612: 我想到的是不同的batchsize结果数据保存下来，再画图（我的理解是每次训练完一个网络只能设置一个batchsize，所以要等不同的结果出来了才能画在一张图上）
常用度量--MAE(平均绝对误差)和RMSE(均方根误差)
whitenightwu: 都是相对的。一般是与应用的benchmark相比，才有实际意义。
深度学习基础--卷积--加速的卷积运算
好き: 动不动就要加几句英文，而且都是没必要的，你专业术语弄成英文也就算了，你咋不全用英文写呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。