细讲sklearn决策树后剪枝(带例子)

老饼讲解机器学习

已于 2024-06-08 12:17:05 修改

阅读量9k

点赞数 6

分类专栏：机器学习 # 决策树文章标签：决策树 sklearn 剪枝

于 2022-02-19 17:55:04 首次发布

本文链接：https://blog.csdn.net/ywj_1991/article/details/123021016

版权

机器学习同时被 2 个专栏收录

19 篇文章

订阅专栏

决策树

12 篇文章

订阅专栏

本文详细介绍了后剪枝方法中的CCP（代价复杂度剪枝），通过实例展示了如何计算CCP路径并利用它来调整决策树的复杂度，以防止过拟合。学习如何选择合适的α值，实现树的优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《老饼讲解机器学习》https://www.bbbdata.com/text/38

为预防模型过拟合，我们可以采用预剪枝和后剪枝方法
1. 预剪枝:树构建过程，达到一定条件就停止生长
2. 后剪枝是等树完全构建后，再剪掉一些节点。

本文讲述后剪枝，预剪枝请参考《sklearn决策树预剪枝》

一.CCP后剪枝简介

后剪枝一般指的是CCP代价复杂度剪枝法（Cost Complexity Pruning），
即在树构建完成后，对树进行剪枝简化，使以下损失函数最小化:

$L=\displaystyle \sum \limits _{i=1}^{T} \frac{N_i}{N} L_i +\alpha T$

$T$ ：叶子节点个数
$N$ ：所有样本个数
$N_{i}$ ：第 i 个叶子节点上的样本数
$L_{i}$ ：第i个叶子节点的损失函数
α ：待定系数，用于惩罚节点个数，引导模型用更少的节点。

损失函数既考虑了代价，又考虑了树的复杂度，所以叫代价复杂度剪枝法，实质就是在树的复杂度与准确性之间取得一个平衡点。

备注：在sklearn中，如果criterion设为GINI,则是 $L_i$ 每个叶子节点的GINI系数，如果设为entropy，则是熵。

二.剪枝操作过程

具体操作过程如下：

(1) 查看CCP路径

计算CCP路径，查看alpha与树质量的关系：
构建好树后，我们可以通过clf.cost_complexity_pruning_path(X, y) 查看树的CCP路径：

# -*- coding: utf-8 -*-
from sklearn.datasets import load_iris
from sklearn import tree
import numpy as np
#----------------数据准备----------------------------
iris = load_iris()                          # 加载数据
X = iris.data
y = iris.target
#---------------模型训练---------------------------------
clf = tree.DecisionTreeClassifier(min_samples_split=10,ccp_alpha=0)        
clf = clf.fit(X, y)     
#-------计算ccp路径-----------------------
pruning_path = clf.cost_complexity_pruning_path(X, y)
#-------打印结果---------------------------    
print("\n====CCP路径=================")
print("ccp_alphas:",pruning_path['ccp_alphas'])
print("impurities:",pruning_path['impurities'])

运行结果：

====sklearn的CCP路径=================
ccp_alphas: [0.      0.00415459 0.01305556 0.02966049 0.25979603 0.33333333]
impurities: [0.02666667 0.03082126 0.04387681 0.07353731 0.33333333 0.66666667]

它的意思是:
0<\alphaα <0.00415时，树的不纯度为 0.02666，
0.00415<\alphaα <0.01305时，树的不纯度为 0.03082，
0.01305<\alphaα <0.02966时，树的不纯度为 0.04387，
........
小贴士：ccp_path只提供树的不纯度，如果还需要alpha对应的其它信息，则可以将alpha代入模型中训练，从训练好的模型中获取。

备注：树的不纯度指的是损失函数的前部分 $L=\displaystyle \sum \limits _{i=1}^{T} \frac{N_i}{N} L_i$ ，也即所有叶子的不纯度（gini或者熵）加权和。

(2)根据CCP路径剪树

根据树的质量，选定alpha进行剪树
我们选择一个可以接受的树不纯度，找到对应的alpha,例如，我们可接受的树不纯度为0.0735，则alpha可设为0.1(在0.02966与0.25979之间）
对模型重新以参数ccp_alpha=0.1进行训练，即可得到剪枝后的决策树。

完整代码如下：

 # -*- coding: utf-8 -*-
from sklearn.datasets import load_iris
from sklearn import tree
import numpy as np

#--------数据准备-----------------------------------
iris = load_iris()                          # 加载数据
X = iris.data
y = iris.target
#-------模型训练---------------------------------
clf = tree.DecisionTreeClassifier(min_samples_split=10,random_state=0,ccp_alpha=0)        
clf = clf.fit(X, y)     
#-------计算ccp路径------------------------------
pruning_path = clf.cost_complexity_pruning_path(X, y)

#-------打印结果---------------------------------   
print("\n====CCP路径=================")
print("ccp_alphas:",pruning_path['ccp_alphas'])
print("impurities:",pruning_path['impurities'])    

#------设置alpha对树后剪枝-----------------------
clf = tree.DecisionTreeClassifier(min_samples_split=10,random_state=0,ccp_alpha=0.1)        
clf = clf.fit(X, y) 
#------自行计算树纯度以验证-----------------------
is_leaf =clf.tree_.children_left ==-1
tree_impurities = (clf.tree_.impurity[is_leaf]* clf.tree_.n_node_samples[is_leaf]/len(y)).sum()
#-------打印结果--------------------------- 
print("\n==设置alpha=0.1剪枝后的树纯度：=========\n",tree_impurities)

运行结果：

====CCP路径=================
ccp_alphas: [0.      0.00415459 0.01305556 0.02966049 0.25979603 0.33333333]
impurities: [0.02666667 0.03082126 0.04387681 0.07353731 0.33333333 0.66666667]

==设置alpha=0.1剪枝后的树纯度：=========
 0.0735373054213634

对于CCP路径的计算过程，可参考：

相关文章