![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习基础
文章平均质量分 92
分享强化学习的基础内容
AIWhispers
中国科学技术大学控制科学与工程在读,主攻多智能体方向,业余丰富各种技术栈。
展开
-
全是问题的强化学习—1
本篇是对强化学习的一些思路整理,错误不少,欢迎指正!原创 2024-02-18 10:17:39 · 919 阅读 · 1 评论 -
【强化学习1--基于值的方法】
这篇文章是对强化学习学习思路的一个整理,主要介绍一下DQN算法原创 2024-03-02 16:15:34 · 932 阅读 · 0 评论 -
【强化学习2--基于策略梯度的方法】
本文全面介绍了基于策略梯度的深度强化学习方法。策略梯度方法适用于连续动作空间问题,直接通过神经网络拟合策略函数。文章着重解释了如何利用策略梯度定理更新策略网络的参数,以最大化预期回报。介绍了REINFORCE算法,该算法通过蒙特卡洛方法估计动作价值函数,并引入状态价值函数作为基线以降低方差。讨论了Actor-Critic方法,该方法结合了策略梯度和值函数更新。进一步,提出了A2C和PPO算法,前者优化了Actor-Critic结构且引入了熵正则化,后者则通过重要性采样简化了算法复杂度。文章通过图表和伪代码清原创 2024-03-09 15:48:16 · 1063 阅读 · 0 评论