Superhuman AI for multiplayer poker

[Superhuman AI for multiplayer poker][https://science.sciencemag.org/content/early/2019/07/10/science.aay2400.full]

概要

以纳什均衡+追寻对方弱点的原理,利用蒙特卡洛+反事实遗憾值最小化的方法,进行自博弈,进而得到可以同时跟多人PK的智能体。

非完备信息游戏的两个难点:

  1. 对手策略的不确定性,即对手的出牌是对手的策略所决定的。
    解决方式:对于这种不确定性,既不是采用单一策略,也不是将所有的策略都考虑进去,而是针对每个玩家,采用k种不同的策略,文章k=4。
  2. 一个玩家针对特定环境的最佳策略取决于从他对手的角度观察他采取的策略所对应的情况。
    解决方式:Pluribus跟踪当前情况下他的策略每一手的可能性

两种CFR(根据复杂度)

根据子对局和部分对局的大小,Pluribus从两种不同形式的CFR中选取一种进行计算策略。如果子对局较复杂或者是对局的早期,则采用蒙特卡洛线性反事实遗憾最小化作为蓝图策略;否则采用线性反事实遗憾最小化的基于向量的最优化形式进行采样可能事件。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值