AI产品--AlphaGo、AlphaGo Zero和master

AlphaGo

  在蒙特卡洛树搜索的框架下,利用深度学习和强化学习技术进行训练和评估,其中用到了人类棋手以往的16 万盘棋谱,以及AlphaGo 自己左右互搏产生的3 000 万盘棋谱。
  发表在《自然》上的论文详解了AlphaGo 背后的深度神经网络和蒙特卡罗树搜索策略,即使用蒙特卡罗树搜索算法(从非常复杂的搜索树约减至可操作的规模),借助价值网络和策略网络这两种深度神经网络分别来实现评估大量选点与落点(依据胜率高低),二者的结合极大地降低了搜索空间的复杂度,其中价值网络降低搜索的深度、策略网络降低搜索的广度。
  Nature 上发表的AlphaGo的论文来看,AlphaGo 并没有采用暴力搜索的方式来寻找最优方案,而是采用经过大量棋局训练的策略神经网络和价值神经网络来搜索胜率最大的走法(有两个网络)。

  AlphaGo 的监督式学习训练出来的策略网络,就需要人类的棋局作为训练样本。深度神经网络还不具有逻辑推演的能力,而是搞超大规模的训练数据来拟合真实场景。
  以AlphaGo为例,AlphaGo 通过学习了几千万局的对弈,并对这些局面进行统计分析,然后才达到了目前的棋力。但人类顶尖棋手通常要达到同等程度的棋力,只需要下几千盘棋,不到AlphaGo 的万分之一。因此,AlphaGo的学习效率仍然十分低下,这说明,它仍然没有触及到人类智能中最本质的部分。也就是说,目前的神经网络还不具有推演的能力,不像人类能够从少量的案例中学习到现象背后的内在规律,并且将规律推广到更多的场景当中。

  计算机围棋的第一次突破发生在2006年,来自法国的一个计算机围棋研究团队,将信心上限决策方法引入到计算机围棋中,结合蒙特卡洛树搜索方法,使得围棋程序性能有了质的提高,在9路围棋上(9*9大小的棋盘)战胜了人类职业棋手。从此之后,围棋程序基本以蒙特卡洛树搜索结合信心上限决策方法为主要的计算框架。


AlphaGo Zero

  经过短短三天的自我训练之后,AlphaGo Zero 就轻松击败了与李世乭对战的那版 AlphaGo,而且是 100 场对决无一败绩。而经过 40 天的自我训练之后,AlphaGo Zero 又变得更强了,击败了“Master”版本的 AlphaGo,而当时世界排名第一的柯洁就是败给了 Master。
  1)除了黑白棋子,没有其他人类教给AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工设计的特征。
  2)AlphaGo Zero只用了一个神经网络,而不是两个。以前AlphaGo是由“策略网络”和“价值网络”来共同确定如何落子。
  3)AlphaGo Zero依赖神经网络来评估落子位置,而不使用rollouts——这是其他围棋程序使用的快速、随机游戏,用来预测哪一方会获胜。

  和柯洁对战的AlphaGo Master,用了和Zero版一样的算法和架构,不同之处在于引入了人类对局数据和特征。改进了,训练和架构都变得更好了

要点

  1)使用残差网络
  2)化简网络结构,将价值/策略网络合并;
  3)只需通过强化学习(完全舍弃监督学习)来训练,不需要人类棋谱作为初始样本;
  4)优化蒙特卡洛树搜索,省去了快速走子(用依赖神经网络来评估落子位置,而不使用rollout policy)


master

  我想这是AlphaGo 重出江湖的重要原因,围棋在这里只是作为一个应用对象,目的还是研究强化学习等方法。
  事实上,DeepMind 公司也确实在试探从0学习的系统,虽然还没有推出。
  DeepMind 公司研究master的具体信息未公开。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值