强化学习相关框架整理（包含分布式多智能体）

最新推荐文章于 2025-03-19 11:48:56 发布

新诺斯给

最新推荐文章于 2025-03-19 11:48:56 发布

阅读量4.4k

点赞数 31

文章标签： python pytorch 机器学习

本文链接：https://blog.csdn.net/weixin_51775090/article/details/135745009

版权

参考：

强化学习开源框架整理

基本框架：

baselines - openai

github： https://github.com/openai/baselines

多机多卡：不支持

多GPU训练是不支持，具体原因见 https://github.com/openai/basel

stable-baselines3

github：https://github.com/hill-a/stable-baselines

多机多卡：不支持

基于OpenAI Baselines的改进版强化学习(RL: Reinforcement Learning)实现。目前由 DLR-RM 维护。不仅文档清晰，还提供了很多常用环境和RL算法的调优超参数。

spinningup - openai

github：https://github.com/openai/spinningup

多机多卡：不支持

Open AI推出的免费强化学习教学项目。

优点是写的通俗易懂上手简单，并且效果有保障，而且同时tf和Pytorch的支持；缺点是没有value-based的算法，做DQN系列的就没办法了

Dopamine - google

github: https://github.com/google/dopamine

多机多卡：不支持

基于 TensorFlow，主打灵活性、稳定性、复现性，能够提供快速的基准测试。

实现算法较少

rlpyt - BAIR

github：https://github.com/astooke/rlpyt

多机多卡：支持

专门基于pytorch实现的rl框架，说是有单机/多机分配资源的黑科技，使用 SyncRl 作为 runner 可以使用多卡进行采样，可以参考 https://github.com/astooke/rlpy

PARL - 百度

github：https://github.com/PaddlePaddle/PARL

多机多卡：支持

百度出品，基于PaddlePaddle的RL框架，其核心卖点一是使用了黑科技可以消除python多线程GIL锁的限制，使得可以高效利用多核CPU来环境并行。经过他们的测试PARL的吞吐效率是比Ray高一些。

缺点是使用这个框架需要使用 paddlepaddle，而不能使用pytorch这些熟悉的框架。

CleanRL

github：https://github.com/vwxyzjn/cleanrl

多机多卡：目前看起来是支持的

不是一个模块化的库，更像是一个完整的算法系统

ElegantRL

github：https://github.com/AI4Finance-Foundation/ElegantRLR

多机多卡：不支持

ElegantRL 基于Actor-Critic 框架搭建深度强化学习算法，每一个Agent（即DRL 算法）由Actor 网络和Critic 网络组成。

Deep Reinforcement Learning Algorithms with PyTorch

github：https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch

多机多卡：不支持

深度强化学习算法和环境的 PyTorch 实现，适合学习和研究。

Tianshou - 清华

github：https://github.com/thu-ml/tianshou

多机多卡：目前支持多卡，多机不支持

是纯基于 PyTorch 代码的强化学习框架，代码里面写了多卡的支持，但是只是把网络使用 DataParallel 包了一下。

rainbow-is-all-you-need

github：https://github.com/Curt-Park/rainbow-is-all-you-need

Pytorch强化学习教程，一共有八章，从DQN（Deep Q-Learning）开始，步步深入，最后展示Rainbow到底是什么。不仅有Jupyter Notebook，作者还在Colab上配置好了代码，很适合新手学习。但是只有 Value based 的方法，没有 Policy Based 的方法。