AI产品--AlphaGo、AlphaGo Zero和master

最新推荐文章于 2025-03-15 20:00:00 发布

whitenightwu

最新推荐文章于 2025-03-15 20:00:00 发布

阅读量6k

点赞数 1

分类专栏： AI资讯和CS

本文链接：https://blog.csdn.net/wydbyxr/article/details/84334010

版权

AI资讯和CS 专栏收录该内容

52 篇文章

订阅专栏

AlphaGo

在蒙特卡洛树搜索的框架下，利用深度学习和强化学习技术进行训练和评估，其中用到了人类棋手以往的16 万盘棋谱，以及AlphaGo 自己左右互搏产生的3 000 万盘棋谱。
发表在《自然》上的论文详解了AlphaGo 背后的深度神经网络和蒙特卡罗树搜索策略，即使用蒙特卡罗树搜索算法（从非常复杂的搜索树约减至可操作的规模），借助价值网络和策略网络这两种深度神经网络分别来实现评估大量选点与落点（依据胜率高低），二者的结合极大地降低了搜索空间的复杂度，其中价值网络降低搜索的深度、策略网络降低搜索的广度。
Nature 上发表的AlphaGo的论文来看，AlphaGo 并没有采用暴力搜索的方式来寻找最优方案，而是采用经过大量棋局训练的策略神经网络和价值神经网络来搜索胜率最大的走法（有两个网络）。

AlphaGo 的监督式学习训练出来的策略网络，就需要人类的棋局作为训练样本。深度神经网络还不具有逻辑推演的能力，而是搞超大规模的训练数据来拟合真实场景。
以AlphaGo为例，AlphaGo 通过学习了几千万局的对弈，并对这些局面进行统计分析，然后才达到了目前的棋力。但人类顶尖棋手通常要达到同等程度的棋力，只需要下几千盘棋，不到AlphaGo 的万分之一。因此，AlphaGo的学习效率仍然十分低下，这说明，它仍然没有触及到人类智能中最本质的部分。也就是说，目前的神经网络还不具有推演的能力，不像人类能够从少量的案例中学习到现象背后的内在规律，并且将规律推广到更多的场景当中。

计算机围棋的第一次突破发生在2006年，来自法国的一个计算机围棋研究团队，将信心上限决策方法引入到计算机围棋中，结合蒙特卡洛树搜索方法，使得围棋程序性能有了质的提高，在9路围棋上（9*9大小的棋盘）战胜了人类职业棋手。从此之后，围棋程序基本以蒙特卡洛树搜索结合信心上限决策方法为主要的计算框架。

AlphaGo Zero

经过短短三天的自我训练之后，AlphaGo Zero 就轻松击败了与李世乭对战的那版 AlphaGo，而且是 100 场对决无一败绩。而经过 40 天的自我训练之后，AlphaGo Zero 又变得更强了，击败了“Master”版本的 AlphaGo，而当时世界排名第一的柯洁就是败给了 Master。
1）除了黑白棋子，没有其他人类教给AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工设计的特征。
2）AlphaGo Zero只用了一个神经网络，而不是两个。以前AlphaGo是由“策略网络”和“价值网络”来共同确定如何落子。
3）AlphaGo Zero依赖神经网络来评估落子位置，而不使用rollouts——这是其他围棋程序使用的快速、随机游戏，用来预测哪一方会获胜。

和柯洁对战的AlphaGo Master，用了和Zero版一样的算法和架构，不同之处在于引入了人类对局数据和特征。改进了，训练和架构都变得更好了