- 博客(13)
- 收藏
- 关注
原创 【多智能体强化学习02---训练范式+独立学习+多智能体策略梯度算法】
本篇文章详细介绍了多智能体的训练范式,独立学习算法以及多智能体策略梯度算法
2024-03-11 11:48:39
2643
1
原创 【强化学习2--基于策略梯度的方法】
本文全面介绍了基于策略梯度的深度强化学习方法。策略梯度方法适用于连续动作空间问题,直接通过神经网络拟合策略函数。文章着重解释了如何利用策略梯度定理更新策略网络的参数,以最大化预期回报。介绍了REINFORCE算法,该算法通过蒙特卡洛方法估计动作价值函数,并引入状态价值函数作为基线以降低方差。讨论了Actor-Critic方法,该方法结合了策略梯度和值函数更新。进一步,提出了A2C和PPO算法,前者优化了Actor-Critic结构且引入了熵正则化,后者则通过重要性采样简化了算法复杂度。文章通过图表和伪代码清
2024-03-09 15:48:16
1055
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人