[深度学习工具]·百度PaddlePaddle深度强化学习框架PARL

最新推荐文章于 2023-04-03 20:15:42 发布

小宋是呢

最新推荐文章于 2023-04-03 20:15:42 发布

阅读量2.7k

点赞数 1

分类专栏：强化学习 paddlepaddle 深度学习工具 Python工具类

本文链接：https://blog.csdn.net/xiaosongshine/article/details/86548102

版权

Python工具类同时被 3 个专栏收录

56 篇文章 2 订阅

订阅专栏

深度学习工具

7 篇文章 1 订阅

订阅专栏

paddlepaddle

3 篇文章 0 订阅

订阅专栏

PARL快速入门示例

PaddlePaddle PARL 的名字来源于 PAddlepaddle Reinfocement Learning，是一款基于百度 PaddlePaddle 打造的深度强化学习框架。PaddlePaddle PARL 凝聚了百度多年来在强化学习领域的技术深耕和产品应用经验。与现有强化学习工具和平台相比，PaddlePaddle PARL 具有更高的可扩展性、可复现性和可复用性，强大的大规模并行化和稀疏特征的支持能力，以及工业级应用案例的验证

基于PARL，训练代理人在几分钟内使用策略梯度算法玩CartPole游戏。

如何使用

依赖关系：（在Ubuntu安装测试成功，Windows失败）

python2.7或python3.5 +
paddlepaddle > = 1.0.0
PARL
gym

开始培训：

# Install dependencies
pip install paddlepaddle  
# Or use Cuda: pip install paddlepaddle-gpu

pip install gym
git clone https://github.com/PaddlePaddle/PARL.git
cd PARL
pip install .

# Train model
cd examples/QuickStart/
python train.py  
# Or visualize when evaluating: python train.py --eval_vis

。。。
[01-19 00:04:20 MainThread @train.py:71] Episode 995, Reward Sum 198.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 996, Reward Sum 200.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 997, Reward Sum 200.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 998, Reward Sum 150.0.
[01-19 00:04:21 MainThread @train.py:71] Episode 999, Reward Sum 200.0.
[01-19 00:04:21 MainThread @train.py:80] Test reward: 200.0

结果

训练结束后，您将看到代理获得最高分（200分）。

小宋是呢

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
[深度学习工具]·百度PaddlePaddle深度强化学习框架PARL

PARL快速入门示例PaddlePaddle PARL 的名字来源于 PAddlepaddle Reinfocement Learning，是一款基于百度 PaddlePaddle 打造的深度强化学习框架。PaddlePaddle PARL 凝聚了百度多年来在强化学习领域的技术深耕和产品应用经验。与现有强化学习工具和平台相比，PaddlePaddle PARL 具有更高的可扩展性、可复现性和可...
复制链接

扫一扫