【强化学习-Mode-Free DRL】深度强化学习如何选择合适的算法？DQN、DDPG、A3C等经典算法&Mode-Free DRL算法的四个核心改进方向

小小码农在线码字

已于 2024-05-10 13:23:44 修改

阅读量1k

点赞数 28

分类专栏：强化学习文章标签：算法人工智能

于 2024-05-10 13:18:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46234454/article/details/138574939

版权

【强化学习-DRL】深度强化学习如何选择合适的算法？

引言：本文第一节先对DRL的脉络进行简要介绍，引出Mode-Free DRL。
第二节对Mode-Free DRL的两种分类进行简要介绍，并对三种经典的DQL算法给出其交叉分类情况；
第三节对Mode-Free DRL的四个核心（改进方向）进行说明。
第四节对DQN的四个核心进行介绍。

DRL的发展脉络

DRL沿着Mode-Based和Mode-Free两个脉络发展。
Mode-Based：利用已知环境模型或未知环境模型进行显式建，并与前向搜索（Look Ahead Search）和轨迹优化（Trajectory Optimization）等规划算法结合达到提升数据效率的目的。相比而言，Mode-Based更加复杂，在实践中应用较少，在学术研究中使用较多。
本文对Mode-Free系列的方法进行介绍。

Mode-Free DRL算法的分类

按照不同的分类可以分为：Value-Based方法、Policy-Based方法。以及Off-Policy、On-Policy。
DQN、DDPG、A3C是三种非常非常经典的方法，也是DRL的研究重点，后续提出的新算法基本都立足于这三种框架。DQN、DDPG、A3C在上述两种分类方式下交叉分类情况如下图。

Mode-Free DRL算法的四个核心（改进方向）

Mode-Free DRL算法的核心为：基本原理、探索方式、样本管理、梯度计算。
基本原理：基本原理层面进展缓慢，但是DRL未来大规模应用的关键所在。
探索方式：探索方式的改进使得DRL算法更加充分地探索环境，以更好地平衡探索和利用，从而有机会学习到更好的策略。
- 如为了改善DQN的探索，使用噪声网络（Noisy Net）代替默认的 $\epsilon-Greedy$ 。
样本管理：样本管理的改进，有助于提升DRL算法的样本效率，从而加快收敛速度，提高算法实用性。
- 如为了提升样本效率，可以将常规经验回放改为优先经验回放（Prioritized Experience Replay，PER）。
梯度计算：梯度计算的改进致力于使每一次梯度更新都稳定、无偏和高效。
- 如为了提高训练稳定性，在计算目标值时由单步Bootstrap改为多步Bootstrap。

DQN

我们以DQN为例子对Mode-Free DRL算法的四个核心进行说明。

基本原理

DQN（Deep Q-Networks）继承了Q-Learning的思想，利用贝尔曼公式的Bootstrap特性，根据式子1计算目标值并不断迭代一个状态动作估值函数 $Q_\theta(s,a)$ ，直到收敛。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。