【论文笔记】Population Based Training of Neural Networks(PBT)+ Real World Games Look Like Spinning Tops

论文介绍

谷歌DeepMind团队在2017年文章《Population Based Training of Neural Networks》中提出的PBT算法,看似比较简单和朴素,但是在实际应用中结果表现良好。

论文链接:https://arxiv.org/pdf/1711.09846v2.pdf
论文源码:(没有官方的)https://paperswithcode.com/paper/population-based-training-of-neural-networks

在这里插入图片描述

自己体会

介绍这篇论文的文章蛮多了,我争取说一些别人没有提到的点。

其它同学的参考链接:
https://blog.csdn.net/jinzhuojun/article/details/100047416
https://zhuanlan.zhihu.com/p/313792467
https://www.cnblogs.com/initial-h/p/10519150.html

算法核心框图:
在这里插入图片描述

在博弈中,常常会因为“策略的旋度(non-transitive)”导致学到的策略循环往复,最后什么都没有学到的情况。比如石头剪刀布游戏中,如果只用简单的self-play 方式训练best response,就会在 一直出石头->一直出布->一直出剪刀->一直出石头的循环中浪费算力。

在《Real World Games Look Like Spinning Tops》一文中提到过,策略有Transitive和non-transitive两部分,从某个角度看,整个策略集合就像一个陀螺,而一个博弈中,绝大部分的策略都属于中间有着极大策略旋度的地方。对处于策略旋度较大的策略生成best-response时,主要梯度方向会是水平方向的(沿着non-transitive方向),这是我们训练策略时不愿意看到的。

这就导致最终选择出来的策略,在Transitive方向可能并没有提升,甚至可能会是负提升。而且,在引入了神经网络之后,self-play并不能保证策略向着纳什均衡解的方向前进。
在这里插入图片描述

如论文中这张图所示,很多训练方式如self-play,都必须在原本的智能体具有一定水平时,才能够保证生效。

Go 是self-play声名鹊起的重要原因之一。它能够有很好效果的原因,可能在于围棋本身是一个non-transitive分量很小的游戏,很少有长期打不过低级别选手却能打赢高级别选手的案例。面对更加复杂的游戏,可能就会有更多的“transitive”分量了。

在这里插入图片描述

而PBT这篇文章,提出的模型训练方式其实有一点“帕累托改进”的意味,或者有点像Double DQN里面“胜者诅咒”导致的过估计。如果种群足够大,从种群中选择出“最能打”的Agent,确实是可以做到,大概率会在transitive方向有分量的,这个概率远远大于传统基于self-play在transitive上有提升的概率。

另外,不难证明,如果游戏的策略旋度越大,则方差越大,用PBT求解时,种群基数就要越大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

邵政道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值