第二次学习计划之蒙特卡罗树（MCTS）

最新推荐文章于 2025-04-07 22:20:05 发布

兮教授～。

最新推荐文章于 2025-04-07 22:20:05 发布

阅读量2.4k

点赞数 3

分类专栏：研究生入学前期导师培训深度学习文章标签：学习

本文链接：https://blog.csdn.net/weixin_46288319/article/details/124851317

版权

研究生入学前期导师培训同时被 2 个专栏收录

5 篇文章

订阅专栏

深度学习

3 篇文章

订阅专栏

总结自知乎大佬：https://zhuanlan.zhihu.com/p/53948964

在学习蒙特卡罗树之前先了解一下蒙特卡洛方法（两者不是同一算法）

蒙特卡洛法方法是什么呢？

它是评判棋盘局面的一种方法，因为围棋很难写出好的估值函数（棋局的评判一般使用估值函数来评估，国际象棋的棋局局面特征比较明显，最容易想到的是可以给每个棋子和位置设置不同的分值，如果棋子之间的保护关系等特征，对局面的评价就已经很靠谱了。而对于围棋上述方法基本不起任何作用），于是上世纪有人提出了一种神奇的方法：双方在某个局面下「随机」走子，注意是「随机」走，走到终局或者残局为止，随机很多次（比如一万盘），计算胜率，胜率越高的局面就越好。

蒙特卡洛树搜索（简称 MCTS）是 Rémi Coulom 在 2006 年在它的围棋人机对战引擎「Crazy Stone」中首次发明并使用的的，并且取得了很好的效果。
我们先讲讲它用的原始 MCTS 算法

蒙特卡洛树搜索，首先它肯定是棵搜索树
在这里插入图片描述

我们回想一下我们下棋时的思维——并没有在脑海里面把所有可能列出来，而是根据「棋感」在脑海里大致筛选出了几种「最可能」的走法，然后再想走了这几种走法之后对手「最可能」的走法，然后再想自己接下来「最可能」的走法。这其实就是 MCTS 算法的设计思路。

每次分为四步：

选择（Selection）
扩展 (expansion)
模拟（Simulation）
回溯（Backpropagation）

1.模拟（Simulation）

模拟借鉴了我们上面说的蒙特卡洛方法，快速走子，只走一盘，分出个胜负。
我们每个节点（每个节点代表每个不同的局面）都有两个值，代表这个节点以及它的子节点模拟的次数和赢的次数，比如模拟了 10 次，赢了 4 盘，记为 4/10。
我们再看多一次这幅图，如图，每个节点都会标上这两个值。

在这里插入图片描述
2.选择（Selection）

未访问：还没有评估过当前局面
未完全展开：被评估过至少一次，但是子节点（下一步的局面）没有被全部访问过，可以进一步扩展
完全展开：子节点被全部访问过

我们找到目前认为「最有可能会走到的」一个未被评估的局面（双方都很聪明的情况下），并且选择它。

什么节点最有可能走到呢？
最直观的想法是直接看节点的胜率（赢的次数/访问次数），哪个节点最大选择哪个，但是这样是不行的！因为如果一开始在某个节点进行模拟的时候，尽管这个节点不怎么好，但是一开始随机走子的时候赢了一盘，就会一直走这个节点了。

因此人们造了一个函数
在这里插入图片描述

Q(v) 是该节点赢的次数，N(v) 是该节点模拟的次数，C 是一个常数。

因此我们每次选择的过程如下——从根节点出发，遵循最大最小原则，每次选择己方 UCT 值最优的一个节点，向下搜索，直到找到一个

「未完全展开的节点」，根据我们上面的定义，未完全展开的节点一定有未访问的子节点，随便选一个进行扩展。

这个公式虽然我们造不出来，但是我们可以观赏它的巧妙之处，首先加号的前面部分就是我们刚刚说的胜率，然后加号的后面部分函数长这样：
在这里插入图片描述
随着访问次数N(vi)的增加，加号后面的值越来越小，因此我们的选择会更加倾向于选择那些还没怎么被统计过的节点，避免了我们刚刚说的蒙特卡洛树搜索会碰到的陷阱——一开始走了歪路。

3.扩展 (expansion)

将刚刚选择的节点加上一个统计信息为「0/0」的节点，然后进入下一步模拟（Simluation）

4.回溯（Backpropagation）

Backpropagation 很多资料翻译成反向传播，不过我觉得其实极其类似于递归里的回溯，就是从子节点开始，沿着刚刚向下的路径往回走，沿途更新各个父节点的统计信息。
在这里插入图片描述
再放一次这个图，可以观察一下在模拟过后，新的 0/0 节点，比如这里模拟输了，变成了 0/1，然后它的到根节点上的节点的统计信息的访问次数全部加 1，赢的次数不变。