强化学习玩2048

weixin_44780427

于 2022-10-22 13:03:02 发布

阅读量499

点赞数

分类专栏： python 强化学习 2048 文章标签： python pytorch 人工智能

本文链接：https://blog.csdn.net/weixin_44780427/article/details/127460580

版权

python 同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

强化学习

1 篇文章 0 订阅

订阅专栏

2048

1 篇文章 0 订阅

订阅专栏

2048

使用说明

play.py 图形化2048游玩
predict.py 评估强化学习100局的得分情况
环境要求 pytorch
tqdm

采用的算法

ppo。在采取动作之前，优先过滤掉无效的操作，相比于惩罚无效操作，过滤是更好的方法。

30w epcoch震荡。

现在的效果

100局百分之五十达到512 百分之10达到1024

奖励函数设置

每轮正奖励：得分/100+空格/16

每局终止状态奖励：-50*（10-log2(每局的最高砖块)）

改进方法：使用蒙特卡洛搜索树方法。并没有特地优化，结果与强化学习差不多，泛化能力稍差

产生的问题

1.ppo的探索问题

随着训练的加深，策略网络已经变为确定性策略，近乎完全失去了探索能力，最终成绩在512~1024震荡。ppo的探索问题如何解决？sac中添加的熵正则可能会更加适合2048这个环境。

Github链接

github链接

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_44780427

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Pytorch强化学习玩微信小游戏

qq_35225554的博客

02-02

3409

Pytorch强化学习玩微信小游戏文章目录Pytorch强化学习玩微信小游戏1.前言：2.环境准备：3.代码讲解A.首先是与调试环境交互相关的代码讲解：B.其次是神经网络代码的讲解C.最后就是模型训练的代码了四.总结 1.前言：学习了DQN有一段时间了，在我接触到的入门教程里，一般都是用它来玩集成好的Gym的游戏比如CartPole-v0，然后复杂一些的就是用它来玩Flappy bird,但...

2048-Gym:该项目旨在使用强化学习算法来玩2048游戏

03-21

2048健身房该存储库是一个有关使用DQN（Q-Learning）玩2048游戏并使用加速和加速环境的。使用的算法来自“ ，环境是自定义的 env。该环境包含两种类型的电路板表示形式：二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反，没有二进制文件使用原始矩阵板。该模型使用两种不同类型的神经网络：CNN（卷积神经网络），MLP（多层感知器）。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果，代理在1000个已玩游戏的10％中获得2048个图块。奥图纳 Optuna是一个自动超参数优化软件框架，专门为机器学习而设计。它具有命令式，按运行定义样式的用户API。多亏了我们的运行定义API，用Optuna编写的代码具有高度的模块化，并且Optuna的用户可以动态构造超参数的搜索空间。还有就是如何使用这个库指南。 Numba 是一种开源JI

参与评论您还未登录，请先登录后发表或查看评论

【强化学习】小项目分析：DQN玩游戏2048

qq272437543的博客

02-11

3483

DQN玩游戏《2048》用DQN玩小游戏，可分为游戏环境部分和模型部分，最后有源码地址 1.《2048》（应该没有人不会玩吧） 2048环境python代码操作：上下左右要点：每次都要在空地方随机产生一个新的（2或4）的块块环境奖励机制： 1.如果有消去的滑块：+消去滑块的大小（比如32+32变成64，就加64分） 2.存活：+1分 3.不能移动（即没有消去滑块或产生新滑块）：-5分（需要避免模型陷入死路） 4.死局：-20 2. Q Learning Q表：Q[s, a]记录某状态s下对应的行为

DQN-2048:2048的AI使用强化学习

05-12

RL-2048 这是使用强化学习的AI。

2048-rl:2048强化学习

05-12

2048-rl Deep Q-Learning Project，打2048。有关，请参阅。入门安装，python＆pip。然后，运行： pip install -r requirements.txt 要运行代码，您需要更新PYTHONPATH ： source set_pythonpath.sh 现在，您应该可以运行测试了： py.test 源代码结构所有python源代码都位于py_2048_rl 。游戏该目录包含模拟2048游戏本身的代码。例如，它提供了实现游戏逻辑的Game类。 play模块定义了Experience类，一个play()函数和各种策略，这些策略可以作为参数传递给play() 。学习该目录包含与Deep Q-Learning算法本身有关的所有代码。以下是这些模块的完整列表： replay_memory实现了“重播内存”。主要方法有add

用PPO玩2048游戏--可以达到合成2048的目的

qq_40394402的博客

07-08

2018

通过PPO算法对2048游戏进行训练，可以得到很的效果，

深度强化学习玩2048

09-23

通过深度强化学习玩2048游戏，可以得到一些有趣的结论。例如，模型可能会学会一些常见的策略，如合并相同数字的块，避免棋盘被填满等。同时，模型也可能会探索一些新的策略，如将数字块集中在一个角落等。

使用强化学习训练智能体玩基于gym环境的2048游戏.zip

热门推荐

一只热爱奔跑的程序猿

09-14

2万+

回归

Reinforcement learning with TensorFlow

lianbus的专栏

03-13

482

这本书可以在网上下到，应该是比较好的介绍增强学习、强化学习的书了。而且代码也有。

left-shift:使用深度强化学习解决游戏2048

03-10

左移该存储库包含我们的项目中ÉcolePolytechnique的INF581：AI高级主题中使用的代码。在此项目中，我们旨在培训2048游戏的游戏代理。我们实现了一个来对游戏进行建模，并使用来自稳定基线库的Deep Q-Learning（DQN）算法来训练多个代理，这些代理会改变状态编码，奖励功能，网络类型和结构。结果表明，使用单热编码的编码状态对于提高性能至关重要。我们还得出结论，就此游戏而言，卷积神经网络（CNN）比多层感知器（MLP）更有效。要进行更深入的讨论，请阅读。项目结构下面我们详细介绍每个目录的功能： agents ：包含用于训练和评估agent的脚本（有关Running子节的更多详细信息），以及实现自定义回调和策略的必要代码； docs ：包含您在上面看到的GIF以及项目的最终报告； hyperparams ：包含详细描述代理程序超参数的YAM

2048-api:用于开发ML（模仿学习或强化学习）代理以玩游戏2048的教育性API

03-20

2048点 2048游戏API，用于训练监督学习（模仿学习）或强化学习代理代码结构：主程序包。 Game类的核心。：具有实例的Agent类。：带有实例的Display类，以显示Game状态。：功能强大的ExpectiMax代理。：介绍如何使用Agent ， Display和Game 。：用于Web应用程序的前端资产（基于Vue.js）。：运行Web应用程序（后端）演示。：评估您的自定义代理。要求仅在linux系统上测试过的代码（ubuntu 16.04）带有numpy和flask的Python 3（专门针对Anaconda 3.6.3）定义自己的代理商 from game2048 . agents import Agent class YourOwnAgent ( Agent ): def step ( self ):

机器学习大作业-用于训练监督学习（模仿学习）或强化学习代理的2048游戏api+源代码+文档说明

12-23

1、资源内容：机器学习大作业-用于训练监督学习（模仿学习）或强化学习代理的2048游戏api+源代码+文档说明 2、代码特点：内含运行结果，不会运行可私信，参数化编程、参数可方便更改、代码编程思路清晰、注释明细，都经过测试运行成功，功能ok的情况下才上传的。 3、适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 4、作者介绍：某大厂资深算法工程师，从事Matlab、Python、C/C++、Java、YOLO算法仿真工作10年；擅长计算机视觉、目标检测模型、智能优化算法、神经网络预测、信号处理、元胞自动机、图像处理、智能控制、路径规划、无人机等多种领域的算法仿真实验，更多源码，请上博主主页搜索。 -------------------------------------------------------------------------- -

python神经网络训练玩游戏_python – 如何训练神经网络来玩2048游戏？

weixin_39735005的博客

11-21

154

我想训练神经网络玩2048游戏.我知道NN对于像2048这样的状态游戏来说不是一个好选择,但是我想要实现NN将像经验丰富的人类一样玩游戏,即仅在三个方向上移动游戏.但由于我们不知道有效输出,我无法弄清楚如何自我训练NN.通常,例如在回归中,您知道正确的输出,您可以计算损失(例如均方误差)并更新权重.但是在2048年,有效输出基本上是未知的(当然你可以计算你可以移动的每个方向的得分,例如,得分最高的...

2048游戏DQN实验

Ray的博客

11-26

2548

2048 DQN实验背景工作分析问题状态表征强化学习算法参数设计代码实现实验结果CNN输入全连接输入CNN input + Priority总结背景我已经做过一些强化学习相关项目，本科的时候也用min-max搜索做过2048，一直觉得2048应该是适合被强化学习解决的，但是查询发现并没有比较合适靠谱的实现代码，于是完成并开源了我的一部分实现工作，供RL learner 参考，github链接 ...

通过2048学习自定义view（一）

weixin_38111666的博客

01-30

987

简介在刚学安卓的时候就尝试着用TextView和LinearLayout写过一个没有动画的2048，现在自学了快半年了，想着写一个2048View来巩固一下之前学的自定义view的知识。（写这篇文章时只完成了开始部分，后面的下一篇文章再补）在这里强烈推荐：HenCoder 的自定义view教程本篇目标作为自定义view，所有的绘制过程都应该在onDraw()里完成，而且应该满足各

(Tensorflow1.0)强化学习实现游戏AI(Demo_1)

weixin_36368407的博客

02-17

6412

http://blog.topspeedsnail.com/archives/10459 在学习完这篇文章好，打算循序渐进的实现俄罗斯方块AI和斗地主AI,并且突破DQN，使用对抗神经网络来实现更强大的AI 下面代码实现的是上面博客的程序，发现了tensorflow1.0后的一个坑，tf.mul函数改名了，tf,multiply....改成全拼了 # -*- codi

用Python实现2048小游戏（终端升级版）相比上篇增添了撤回功能和历史最高分数的统计

Miku_wx的博客

01-16

1303

时隔数天，我又回来了最近工作稍微有点忙，没有更新昨晚给学生上课，写2048的时候，被学生提了需求，一个撤回功能和历史分数的记录就拿过来给大家也看一下下方链接为原游戏代码用Python实现2048小游戏（终端版）首先是增添的撤回功能每局游戏有三次撤回的机会 # 撤销 def revoke(self): if self.count > 0: self.count -= 1 self.screen = copy.d

深度强化学习系列: 深度强化学习的加速方法解读

深度强化学习(DeepRL)探索博客

01-31

1万+

《Accelerated methods for deep reinforcement learning》论文解读深度强化学习一直以来都以智能体训练时间长、计算力需求大而限制很多的人去学习，比如：AlphaZero训练3天的时间等，因此缩短训练周转时间成为一个重要话题。目前这块的研究成果并不是特别多，但，深度强化学习大神Pieter Abbeel发表了深度强化学习的加速方法，他从整体上提出了一个...