AI的强大,对游戏的影响巨大

RLCard是一个开源的强化学习Python平台,专注于牌类游戏,提供多种流行的牌类游戏环境和强化学习算法。它旨在促进在非完美信息博弈和强化学习之间的研究,支持易于使用、可扩展和可定制的游戏环境,适用于多智能体、高维状态和稀疏奖励的研究。RLCard具有可复现性、易用性和可扩展性的特点,还支持并行训练和单智能体接口,为游戏AI开发提供便利。
摘要由CSDN通过智能技术生成

AI 攻陷各种棋牌游戏已经不是什么新闻,但迅速开发和测试 AI 的环境一直是困扰业界和学界的问题。

最近德州农工大学数据科学实验室给出了他们的解决方案,开源了基于牌类游戏设计的强化学习 Python 平台 RLCard,其中融合了中西方最流行的几种牌类游戏,同时实现了多种强化学习算法。

RLCard 致力于为强化学习提供一个易用、统一的开发和测试环境,让人们能轻松、便捷地训练测试自己的 AI。RLCard 是一个用于牌类游戏强化学习研究的开源工具包,其接口简单易用,支持多种牌类环境。

RLCard 的目标是在强化学习与非完美信息博弈之间搭建桥梁,推动强化学习研究在多智能体、高维状态和动作空间以及稀疏奖励领域的进步。

该工具包的开发遵循以下设计原则:可复现。在这些环境上的结果是可以重复得到的。如果在不同的运行中使用了同样的随机种子,那么所得结果应当是一致的。易使用。

在每轮游戏之后,产生的数据可被直接用于强化学习训练。开发者也可以方便地配置状态表征、动作编码、奖励设计、甚至游戏规则。可扩展。通过上述设计原则,开发者可以方便地向该工具包添加新的牌类游戏环境。该工具包中的依赖尽力做到了最少,以便能轻松地维护代码。该工具包提供了多种风格的受大众欢迎的牌类游戏,包括博彩游戏、中式扑克以及一些棋盘游戏。

开发者还提供了用来更灵活访问游戏树的高级接口。与 OpenAI Gym 类似,工具包定义了一个 step 函数,其可在给定的当前动作下将环境移动到下一个状态。此外该工具包还包含一个 step_back 函数,这能回溯到前一个状态。状态表征状态的定义是:在游戏的一个特定时间步骤中一个玩家所能观察到的所有信息。在该工具包中,每个状态都是一个字典,包含两个值。第一个值是合法动作。第二个值是观察到的状态。编码观察的方式有很多种。对于 Blackjack,RLCard 直接将玩家的分数和庄家的分数用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值