[Superhuman AI for multiplayer poker][https://science.sciencemag.org/content/early/2019/07/10/science.aay2400.full]
概要
以纳什均衡+追寻对方弱点的原理,利用蒙特卡洛+反事实遗憾值最小化的方法,进行自博弈,进而得到可以同时跟多人PK的智能体。
非完备信息游戏的两个难点:
- 对手策略的不确定性,即对手的出牌是对手的策略所决定的。
解决方式:对于这种不确定性,既不是采用单一策略,也不是将所有的策略都考虑进去,而是针对每个玩家,采用k种不同的策略,文章k=4。 - 一个玩家针对特定环境的最佳策略取决于从他对手的角度观察他采取的策略所对应的情况。
解决方式:Pluribus跟踪当前情况下他的策略每一手的可能性
两种CFR(根据复杂度)
根据子对局和部分对局的大小,Pluribus从两种不同形式的CFR中选取一种进行计算策略。如果子对局较复杂或者是对局的早期,则采用蒙特卡洛线性反事实遗憾最小化作为蓝图策略;否则采用线性反事实遗憾最小化的基于向量的最优化形式进行采样可能事件。