Real World Games Look Like Spinning Tops (DeepMind NIPS2020) 论文阅读记录

博弈论被用来描述和分析很多策略交互,包括Go,StarCraft等现实游戏。了解这些游戏的共同结构有助于理解特定方法有效的原因及其局限。论文研究的就是现实游戏的几何结构。

在论文提出的Game of Skill假说中,策略显示出类似陀螺的几何结构。纵轴表示transitive strength,横轴表示non-transitive dimension也就是在纵轴当前所处的transitive strength的number of cycles。

论文专注于两方面:第一,从理论和实验上研究Games of Skill几何结构是否在现实游戏中存在;第二,该假说对learning的启示。

  • 理论方面,该假说可用于预测how strategies behave,例如在2-player零和游戏中一个清楚的预测就是long cycles在weak strategies中的存在。
  • 实验方面,在9个两人零和游戏中观察到了陀螺结构,结果也显示了population size对学习收敛的影响。
  • 假说对learning的启示:在许多应对现实游戏的工作中使用了一些形式的population-based training,本文建立了将population size and diversity与transitive improvement guarantees联系起来的理论,强调了population-based training techniques和the notion of diversity seeking behaviors的重要性。​​​​​​​

论文将具有陀螺结构的游戏称为Games of Skill。这些游戏具有the notion of progress和the availability of diverse game styles这两个特性,再加上一些为了输的策略,就构成了策略的陀螺结构。

论文提出了一些定义理论及观点,例如StarCraft等现代游戏即使游戏时间被限制在10min在,也至少是36000-bit comminitive,显示了现实游戏具有极其复杂的结构。

Layered game geometry直觉解释了finite-memory fictitious self-play效果好的原因。

已经被用于soccer和StarCraft2等多智能体训练的high level idea:seek wide coverage of strategies around the current transitive strength。

论文的发现为population-based learning techniques提供了引导,希望研究者们能利用游戏特有的几何结构更好地构建AI。


简单理解:

如何从当前层具有循环克制关系的策略中跳到更高层的策略中去?(transitive improvement)

需要这一层的圆盘里的策略包含所有的循环克制关系,然后训练一个可以打败所有这些策略的新策略^{[1]}

这应该就是上面说的seek wide coverage,也就是策略的diversity,陀螺的宽度。

根据Games of Skill geometry,,当策略很弱时同层策略非常多(就是论文里提到的long cycle极长的循环克制),策略提升较慢;策略越往上走提升就越快,也就是提升策略需要的coverage会随着智能体变强而越来越小,直到到达陀螺顶部的一个最终策略。


​​​​​​​

论文里还有这张图,大概是根据这些项目使用的多智能体算法的复杂度推出它们在陀螺上的位置:算法越复杂,顶部空间越大,比如AlphaStar在MinMax的下面。这个分析并不表明方法的好坏,而是提供了一种直觉,training pipelines的发展使non-trasitivity avoidance techniques的简化成为可能,因为它的初始策略集已经在陀螺中足够高的位置了。没懂。

参考

[1] https://www.cnblogs.com/initial-h/p/15205622.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值