alpha,beta剪枝详解

α , β 剪 枝 详 解 \alpha,\beta剪枝详解 α,β

示例图

在这里插入图片描述

步骤详解

基础原理

这里我们先要理解什么是 α , β \alpha,\beta α,β剪枝: α \alpha α是下界, β \beta β是上界。

此外,作为博弈的双方,最大值方(用方块表示)总是试图做出决策使值最大,最小值方(用圆表示)总是试图做出决策使值最小,这里我们带入最大值方,站在A的角度,判断究竟是选择B还是C能满足我们的目标。

步骤详解
1. 从A开始深度优先搜索,一直搜索到I,得到值为1,因此下界alpha为1,也就是说D的决策最差为1。
2. 再次搜索,从D->J,得到J的值为3,因为D是最大值方,所以此时alpha为3(因为最大值方总是会选择最大的那个)
3. 由于D的所有的值已经确定,所以D的值为3。
4. 由于D的值确定,所以可以回到B(这里的原则是如果子节点中有个值确定,就可以返回上下界给父节点),B是最小值方,知道D的值为3,所以他要尽可能使值小,他把上界beta更新为3。
5. 从D开始搜索E,E搜索到K为4,E的下界更新为4,这个时候其实不用去搜索E的其他子节点了,因为4已经大于B的上界beta3,也就是说在E这个结点,可能选到一个值大于从D中得到的值,B不会傻乎乎的给E这个机会,这也是剪枝的地方
由此,我们大致可以归纳出求最大值的方法:
1. 如果是叶子节点直接返回
2. 搜索子节点,如果某个子节点大于beta,则返回;
			 否则一直寻找子结点中的最大值,并且试图更新alpha值
具体实现在“代码实现”部分(max_value(node,alpha,beta))
6. 所以B的值为3,由此可以确定A的下界为3,从A开始搜索,一直到O,得到值为2
7. F的alpha更新为2,再次搜索P,得到值为1,1<alpha,所以不产生影响
8. F的值确定为2,C的上界确定为2,C的上界小于A的下界,所以现在剪枝。
由此,我们可以大致归纳出求最小值的方法:
1. 如果使叶子节点直接返回
2. 搜索子节点,如果某个子节点小于等于alpha,则返回;(针对父节点)
			否则一直寻找子节点中的最小值,并试图更新beta(针对子节点)
具体实现在“代码实现”部分(min_value(node,alpha,beta))

代码实现
def max_value(self,node,alpha,beta):
    if(self.isTerminal(node)){	#如果使叶子节点
        return node.get_value();
    }
	clf = float('-inf') #初始值设置为-inf
    for chld in node.children:	#遍历子节点
        clf = max(clf,min_value(chld,alpha,beta))
        if clf >= beta:
            return clf
        alpha = max(alpha,clf)
    node.val = clf
    return clf
def min_value(self,node,alpha,beta):
    if(self.isTerminal(node)){
        return node.get_value();
    }
	clf = float('inf')
    for chld in node.children:
        chld = min(clf,max_value(chld,alpha,beta))
        if clf <= alpha:
            return clf
        beta = min(beta,clf)
    node.val = clf
    return clf
难点分析

个人觉得这个剪枝方法的难点在于不明白到底是在哪里剪枝?

其实这里的剪枝是在父节点与子节点间的,假如我们站在C的角度上,它的父节点A因为B(B=2),设定了下界为2,此时C进行探索,如果F的值为1,那么C就不用再探索了,因为A不会给C这个机会去得到F;我们再站在G的角度上,G的父节点由于探索了F,因此设定上界为(F=2),而此时G探索到Q(3),那么G也可以不用探索了,因为C不会给G这个机会去选择Q。

所以剪枝是在父节点和子节点间的:最大值方给出下界的压力,最小值方给出上界的压力(所以代码中最小值方一直更新下界,就是为了找到一个更好的下界)。

  • 5
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值