强化学习玩2048

1 篇文章 0 订阅
1 篇文章 0 订阅

2048

使用说明

play.py 图形化2048游玩
predict.py 评估强化学习100局的得分情况
环境要求 pytorch
tqdm

采用的算法

ppo。在采取动作之前,优先过滤掉无效的操作,相比于惩罚无效操作,过滤是更好的方法。

30w epcoch震荡。

现在的效果

100局 百分之五十达到512 百分之10达到1024

奖励函数设置

每轮正奖励:得分/100+空格/16

每局终止状态奖励:-50*(10-log2(每局的最高砖块))

改进方法:使用蒙特卡洛搜索树方法。并没有特地优化,结果与强化学习差不多,泛化能力稍差

产生的问题

1.ppo的探索问题

​ 随着训练的加深,策略网络已经变为确定性策略,近乎完全失去了探索能力,最终成绩在512~1024震荡。ppo的探索问题如何解决?sac中添加的熵正则可能会更加适合2048这个环境。

Github链接

github链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值