![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
动态规划
文章平均质量分 75
BIT龙超越
这个作者很懒,什么都没留下…
展开
-
强化学习-深度蒙特卡洛算法(Deep Monte-Carlo)解决骰子游戏“吹牛”
深度蒙特卡洛算法是一种使用深度神经网络来进行蒙特卡洛估计的强化学习算法,它最早于2020年在《DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning》被提出用于解决斗地主问题。深度蒙特卡洛算法使用深度网络拟合每个时刻,智能体状态和采取每种动作的价值函数,即Q value,所以其属于value base 类方法。原创 2024-04-11 18:17:46 · 1104 阅读 · 1 评论 -
强化学习-MAPPO算法解析与实践-Multi Agent Proximal Policy Optimization
多智能体强化学习mappo算法实践,含pytorch代码原创 2024-04-26 14:51:19 · 2178 阅读 · 18 评论 -
论文复现-多目标强化学习-envelope MOQ-learning
这一部分就很明了了,计算前面提到的几种loss,给与不同权重后反向传播,唯一特别注意的是,actor loss中使用的优势adv,不知出于什么理由,使用了优势向量与偏好向量做内积后的偏好,(可能是因为解唯一,优化方便)虽然论文中用的是Q-learning的架构,但是在提供的代码中,采用的是A3C的架构,使用envelope 网络作为价值网络,估计状态价值用于更新,所以接下来以代码为准,结合论文思想,展示用到的输入、输出和损失函数。w的值均为正数,且和为1,每一位的值,代表对该维目标的偏好大小。原创 2023-10-18 15:48:33 · 2811 阅读 · 3 评论 -
强化面试-ACM算法作业
【代码】ACM算法作业。原创 2023-02-05 09:52:03 · 97 阅读 · 0 评论