【NIPS最佳论文引发深度学习论战】AlphaZero能击败冷扑大师吗?No(Science论文)

点击有惊喜


NIPS2017的最佳论文今年被“冷扑大师”拿下,在深度学习大行其道的今天,一个使用非深度学习方法的研究拿下最佳论文,着实有些意外,算是“冷扑大师”创造的一个小冷门。

12月18日,《Science》上发布了题为《Superhuman AI for heads-up no-limit poker: Libratus beats top professionals》的文章,介绍“冷扑大师”的工作原理。同一天,论文的两位作者——CMU博士生Noam Brown和教授Tuomas Sandholm 在Reddit上进行Q&A问答。对大家关心的问题,比如:为什么不使用深度学习?AlphaZero会打败Libratus吗?不完备信息博弈的下一个大方向等一一作了回答。

以下为第一人称的介绍:

大家好!我们是CMU博士生Noam Brown和Tuomas Sandholm教授。今年早些时候,我们的AI Libratus首次在无限注扑克(详细说来,是一对一无限注德州扑克)中击败了顶级职业玩家。我们在持续了20天的12万手比赛中击败了4位顶级人类玩家。

a9c2fa4dc6adc1300d6fd65eba26161b0ded19a3

我们最近的论文讨论了AI,安全和子博弈(subgame)博弈的核心技术之一,赢得了NIPS 2017最佳论文奖。

我们很高兴回答您关于Libratus,比赛,人工智能,不完备信息博弈,卡内基梅隆,教授或博士生的学术生活等问题,或者您可能遇到的任何其他问题!

什么时候会实现通用人工智能?

问:AI在接下来2年到5年,或者5年到10年内,最不可能解决的问题有哪些?(概率大于90%)未来会有哪些AI进展会让你觉得(大于40%的概率)通用人工智能会在2-5年、5-10年或者1年内实现?

NoamBrown:这是一个非常主观的问题,所以我只说说我的个人看法。我不认为AI在接下来的10年内可以原创地写出一部可以获奖的、具有思想启发性的作品。如果这真的发生了,我可能会非常害怕通用人工智能的诞生。

为什么不使用深度学习?

:Libratus没有利用深度学习。是故意为之吗?或者就是没有想过使用它?又或者是试过了,没有效果?考虑到DeepStack(另一个扑克AI,使用深度学习)的成功,如果来一次,你会考虑使用它吗?

NoamBrownLibratus不使用任何深度学习。我们希望这有助于人们认识到AI比深度学习更重要!深度学习本身不足以玩扑克这样的游戏

也就是说,我们介绍的技术与深度学习并不矛盾。我会把它们描述成MCTS(蒙特卡洛树搜索)的替代品。对于像扑克这样的游戏来说,深度学习并不是特别必要的。但是我认为对于其他一些游戏来说,某种类型的函数近似是相当有用的。

DeepStack确实使用深度学习,但不清楚它是多么有效。举例来说,它并没有一对一地战胜过人类玩家。我认为DeepStack做得相当好的原因是因为它使用了由两个团队独立并且同时开发的嵌套子博弈解决方案。这并不需要深度学习。 Libratus使用嵌套子博弈解决方案的更高级版本,加上一些其他的好东西,带来了真正强大的性能。

追加提问:你为什么没有最终在模型中使用强化学习?似乎是自然而然的事情。

NoamBrown :我们在Libratus中使用了CFR的变体。具体说来,我们使用Monte Carlo CFR来计算蓝图策略,而CFR +则是在实时子博弈求解中。

CFR是一种类似于强化学习的self-play算法,但是CFR另外考虑了在self-play期间未被选择的假设动作的收益。 CFR存在一个纯粹的强化学习变体,但在实践中找到一个好的策略还需要更长的时间。

如何评价DeepStack,谁先做的?

:你如何看2017年5月在“科学”杂志上发布 DeepStack(https://arxiv.org/abs/1701.01724)?你们的工作发表在 NIPS 2017,是在2017年12月,是谁先做的呢?你们之间有合作吗?

(吃瓜)群众:我觉得Libratus可以碾压DeepStack。两个Bot所面对的玩家质量有着天壤之别。绝大多数的DeepStack的对手都是非常弱的专业扑克玩家(尽管有一些人非常熟练),我不认为它的对手都是专业的玩家,并且他们还设立了激励机制,以便奖励高回报方法(因为只有第一名被可以得到报酬)。

TuomasSandholm :虽然DeepStack在其方法中也有有趣的想法,但我同意LetterRip的评估。

现在我将讨论两个AI之间的一些相似之处和不同之处。我还建议阅读http://science.sciencemag.org/content/early/2017/12/15/science.aao1733,其中描述了Libratus,并包括与DeepStack的比较。

DeepStack的算法类似于Libratus的嵌套子博弈求解,他们称之为不断的重新求解。和Libratus一样,对手的确切赌注大小被添加到要解决的剩余子博弈的新抽象中。我们于2016年10月在网上发布了我们的论文(2017年2月发表在AAAI-17研讨会),DeepStack团队于2017年1月在arXiv上发表了他们的论文(2017年春末在Science上发表了)。考虑到开发这些技术需要多长时间,我认为这两个团队在这之前已经有了几个月的时间来研究这些想法,所以可以说它们是独立发展的、并行的。而且,这些技术有显著的差异。

另一个区别在于这两个AI如何在前两轮进行下注。 DeepStack通过神经网络估算深度极限值,在前两轮下注中解决了深度受限的子博弈问题。这允许它总是可以对对手off-tree行动的实时响应进行计算,而Libratus在前两轮中通常根据其的预先计算的蓝图策略(除了如果该plot很大,会使用其子博弈解算器)实时完成。由于在前两轮,Libratus通常根据提前计算的蓝图策略进行游戏,因此它会将对手的下注大小轮回到附近的抽取中。这些轮次的蓝图行动抽象是密集的,以弱化弱点。此外,Libratus还有一个独特的自我完善模块,用于随着时间的推移增加蓝图策略,以在对手聚集的策略中找到潜在漏洞,在部分游戏树中计算更接近纳什均衡的近似值。

在评估方面。 除了LetterRip上面写到的关于对人类的评估之外,DeepStack从来没有被证明超越了之前公开的顶级AI,而Libratus击败了之前最好的HUNL扑克AI Baby Tartanian8(赢得了2016年度计算机扑克大赛),性能大幅度提高(63MBb /局)。

在合作方面,两个研究小组已经相继发表了13年的技术和技术。此外,加拿大扑克组织负责人Michael Bowling在CMU获得了博士学位,并且在博士学位委员会任职。但是,我们迄今还没有直接合作。


点击有惊喜


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值