[深度学习工具]·百度PaddlePaddle深度强化学习框架PARL

PARL快速入门示例

PaddlePaddle PARL 的名字来源于 PAddlepaddle Reinfocement Learning,是一款基于百度 PaddlePaddle 打造的深度强化学习框架。PaddlePaddle PARL 凝聚了百度多年来在强化学习领域的技术深耕和产品应用经验。与现有强化学习工具和平台相比,PaddlePaddle PARL 具有更高的可扩展性、可复现性和可复用性,强大的大规模并行化和稀疏特征的支持能力,以及工业级应用案例的验证

基于PARL,训练代理人在几分钟内使用策略梯度算法玩CartPole游戏。

NeurlIPS2018 半猎豹 爆发 
NeurlIPS2018

如何使用

依赖关系:(在Ubuntu安装测试成功,Windows失败)

开始培训:

# Install dependencies
pip install paddlepaddle  
# Or use Cuda: pip install paddlepaddle-gpu

pip install gym
git clone https://github.com/PaddlePaddle/PARL.git
cd PARL
pip install .

# Train model
cd examples/QuickStart/
python train.py  
# Or visualize when evaluating: python train.py --eval_vis

 

。。。
[01-19 00:04:20 MainThread @train.py:71] Episode 995, Reward Sum 198.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 996, Reward Sum 200.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 997, Reward Sum 200.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 998, Reward Sum 150.0.
[01-19 00:04:21 MainThread @train.py:71] Episode 999, Reward Sum 200.0.
[01-19 00:04:21 MainThread @train.py:80] Test reward: 200.0

结果

训练结束后,您将看到代理获得最高分(200分)。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小宋是呢

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值