决策树概述+模块介绍+重要参数（criterion+random_state&splitter+减枝参数+目标权重参数）+回归树（参数+实例+拟合正弦曲线）+泰坦尼克号生存者预测实例

最新推荐文章于 2025-03-13 13:37:10 发布

斯外戈的小白

最新推荐文章于 2025-03-13 13:37:10 发布

阅读量6.5k

点赞数 6

文章标签：决策树 sklearn 机器学习

本文链接：https://blog.csdn.net/weixin_51589123/article/details/120401684

版权

什么是sklearn

sklearn是一个开源的基于python语言的机器学习工具包，它通过numpy、scipy和matplotlib等python数值计算的库实现高效的算法应用，涵盖了几乎所有主流机器学习算法。

一、决策树概述

（一）概述

决策树是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，以解决分类和回归问题。
在这里插入图片描述

（二）基础概念

根节点：没有进边，有出边。包含最初的，针对特征的提问。

中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问。

叶子节点：有进边，没有出边，每个叶子节点都是一个类别标签。

子节点和父节点：在两个相连的节点中，更接近根节点的是父节点，另一个是子节点。

（三）决策树算法的核心是要解决两个问题：

1）如何从数据表中找出最佳节点和最佳分枝？
2）如何让决策树停止生长，防止过拟合？

二、模块sklearn.tree的使用

（一）模块介绍

在这里插入图片描述

（二）使用介绍

在这里插入图片描述

三、重要参数

（一）criterion

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个“最佳”的指标叫做“不纯度”。通常来说，不纯度越低，决策树对训练集的拟合越好。

不纯度基于节点来计算，树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择：

1）输入”entropy“，使用信息熵（Entropy）
2）输入”gini“，使用基尼系数（Gini Impurity）
在这里插入图片描述
当使用信息熵时，sklearn实际计算的是基于信息熵的信息增益(Information Gain)，即父节点的信息熵和子节点的信息熵之差。

比起基尼系数，信息熵对不纯度更加敏感，对不纯度的惩罚最强。但是在实际使用中，信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，决策树的生长会更加“精细”，因此对于高维数据或者噪音很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。**当模型拟合程度不足的时候，即当模型在训练集和测试集上都表现不太好的时候，使用信息熵。**当然，这些不是绝对的
在这里插入图片描述

from sklearn import tree
from sklearn import datasets
from sklearn.model_selection import train_test_split
import graphviz

wine = datasets.load_wine()
# print(wine) 字典形式
# print(wine.data)
# print(wine.data.shape) #(178, 13)一共有13个特征
# print(wine.target)

x_train, x_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3)
# test_size=0.3——>0.3是训练接，0.7是测试集
# print(x_train)
print(x_train.shape)  # (124, 13)
print(y_train.shape)  # (124,)

clf = tree.DecisionTreeClassifier(criterion="entropy")
#实例化
clf = clf.fit(x_train, y_train)  #训练模型
score = clf.score(x_test, y_test)  # 返回预测的精确度accuracy
print(score)  # 0.7962962962962963

feature_name = ['酒精', '苹果酸', '灰', '灰的碱性', '镁', '总酚', '类黄酮', '非黄烷类酚类', '花青素', '颜色强度', '色调', 'od280/od315稀释葡萄酒', '脯氨酸']
#将特征值改为中文

dot_data = tree.export_graphviz(clf,
                                out_file='tree.dot',
                                feature_names=feature_name,
                                class_names=['琴酒', '雪莉', '贝尔摩德'],
                                filled=True,  #填充颜色
                                rounded=True  #边框略圆
                                )
with open('tree.dot', encoding='utf-8') as f:
    dot_grapth = f.read()
graph = graphviz.Source(dot_grapth.replace("helvetica", "MicrosoftYaHei"))
#为了显示中文，所以只能改变dot文件里的字体

graph.render(r'D:\wine')
graph.view()

图片是通过graphviz画出来的

在这里插入图片描述

（二） random_state & splitter

训练集和测试集划分每次都是随机的喔，所以实验结果每次都不同

决策树在形成时，分支的时候是通过计算每个节点的不纯度来选取节点，是通过优化每个节点来形成的，但是最优的节点不一定能形成最优的树。

每次建树的时候都是通过选取不同的特征值来形成不同的树。但是每次返回的最优的树都不同。

所以可以通过固定一个种子数来固定最优树模型。

random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

splitter也是用来控制决策树中的随机选项的，有两种输入值，输入”best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。

clf = tree.DecisionTreeClassifier(criterion="entropy",
                                  random_state=30,
                                  splitter='random')

加入splitter=‘random’以后会发现树变得更大更宽了，因为特征值选取更加随机了。默认是best。
在这里插入图片描述

（三）减枝参数

在不加限制的情况下，一棵决策树会生长到衡量不纯度的指标最优，或者没有更多的特征可用为止。这样的决策树往往会过拟合，这就是说，它会在训练集上表现很好，在测试集上却表现糟糕。

为了让决策树有更好的泛化性，我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心。

1、max_depth

限制树的最大深度，超过设定深度的树枝全部剪掉这是用得最广泛的剪枝参数，在高维度低样本量时非常有效。决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。实际使用时，建议从=3开始尝试，看看拟合的效果再决定是否增加设定深度。

2、min_samples_leaf & min_samples_split min_samples_leaf

限定，一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。

一般搭配max_depth使用，在回归树中有神奇的效果，可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据。一般来说，建议从5开始使用。

min_samples_split限定，一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分枝，否则分枝就不会发生。

test = []
for i in range(10):
    clf = tree.DecisionTreeClassifier(max_depth=i + 1,
                                      criterion="entropy",
                                      random_state=30,
                                      splitter='random',
                                      )
    clf = clf.fit(x_train, y_train)
    score = clf.score(x_test, y_test)  # 返回预测的精确度accuracy
    test.append(score)
plt.plot(range(1, 11), test, color='red', label='max_depth')
plt.legend()
plt.show()

寻找最佳的max_depth

在这里插入图片描述

3、max_features & min_impurity_decrease

一般搭配max_depth使用

max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。和max_depth异曲同工

max_features是用来限制高维度数据的过拟合的剪枝参数，但其方法比较暴力，是直接限制可以使用的特征数量而强行使决策树停下的参数，在不知道决策树中的各个特征的重要性的情况下，强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合，建议使用PCA，ICA或者特征选择模块中的降维算法。

min_impurity_decrease限制信息增益的大小，（信息增益是用父节点的信息熵-子节点的信息熵）信息增益小于设定数值的分枝不会发生。这是在0.19版本中更新的功能，在0.19版本之前时使min_impurity_split。

剪枝参数可以通过学习曲线来找到最优参数

无论如何，剪枝参数的默认值会让树无尽地生长，这些树在某些数据集上可能非常巨大，内存的消耗也非常巨大。所以如果你手中的数据集非常巨大，你已经预测到无论如何你都是要剪枝的，那提前设定这些参数来控制树的复杂性和大小会比较好。

（四）目标权重参数

class_weight & min_weight_fraction_leaf

在银行要判断“一个办了信用卡的人是否会违约”，就是是vs否（1%：99%）的比例。这种分类状况下，即便模型什么也不做，全把结果预测成“否”，正确率也能有99%。因此我们要使用class_weight参数对样本标签进行一定的均衡，给少量的标签更多的权重，让模型更偏向少数类，向捕获少数类的方向建模。

有了权重之后，样本量就不再是单纯地记录数目，而是受输入的权重影响了，因此这时候剪枝，就需要搭配min_ weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意，基于权重的剪枝参数（例如min_weight_ fraction_leaf）将比不知道样本权重的标准（比如min_samples_leaf）更少偏向主导类。如果样本是加权的，则使用基于权重的预修剪标准来更容易优化树结构，这确保叶节点至少包含样本权重的总和的一小部分。

重要的属性和接口

sklearn中许多算法的接口都是相似的，比如说我们之前已经用到的fit和score，几乎对每个算法都可以使用。除了这两个接口之外，决策树最常用的接口还有apply和predict。
在这里插入图片描述
**决策树输入的数据特征值必须大于等于2。**如果你的数据的确只有一个特征，那必须用reshape(-1,1)来给矩阵增维。

决策树模型天生对环形数据没有良好的训练效果。

第一个是月亮型数据集、第二个是环形数据集、第三个是对半分数据集。分类树天生不擅长环形数据。每个模型都有自己的决策上限，所以一个怎样调整都无法提升表现的可能性也是有的。当一个模型怎么调整都不行的时候，我们可以选择换其他的模型使用，不要在一棵树上吊死。顺便一说，最擅长月亮型数据的是最近邻算法，RBF支持向量机和高斯过程；最擅长环形数据的是最近邻算法和高斯过程；最擅长对半分的数据的是朴素贝叶斯，神经网络和随机森林。
在这里插入图片描述

四、回归树

（一）参数

1、criterion

回归树衡量分枝质量的指标，支持的标准有三种： 1）输入"mse"使用均方误差mean squared error(MSE)，父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失
在这里插入图片描述
2）输入“friedman_mse”使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差

3）输入"mae"使用绝对平均误差MAE（mean absolute error），这种指标使用叶节点的中值来最小化L1损失属性中最重要的依然是feature_importances_，接口依然是apply, fit, predict, score最核心。

在回归树中，MSE不只是我们的分枝质量衡量指标，也是我们最常用的衡量回归树回归质量的指标，当我们在使用交叉验证，或者其他方式获取回归树的结果时，我们往往选择均方误差作为我们的评估（在分类树中这个指标是score代表的预测准确率）。在回归中，我们追求的是，MSE越小越好。然而，回归树的接口score返回的是R平方，并不是MSE。
在这里插入图片描述
y尖儿是标签的平均值。虽然均方误差永远为正，但是sklearn当中使用均方误差作为评判标准时，却是计算”负均方误差“（neg_mean_squared_error）。这是因为sklearn在计算模型评估指标的时候，会考虑指标本身的性质，均方误差本身是一种误差，所以被sklearn划分为模型的一种损失(loss)，因此在sklearn当中，都以负数表示。真正的均方误差MSE的数值，其实就是neg_mean_squared_error去掉负号的数字。

2、交叉验证：

交叉验证是用来验证模型稳定性的一种指标。交叉验证是用来观察模型的稳定性的一种方法，我们将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分会干扰模型的结果，因此用交叉验证n次的结果求出的平均值，是对模型效果的一个更好的度量。

（二）波士顿房价实例


from sklearn.datasets import load_boston
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeRegressor

boston = load_boston()
regression = DecisionTreeRegressor(random_state=0)
#score = cross_val_score(regression, boston.data, boston.target, cv=10)
#cv=10将我们的数据划分为10组，做10次交叉验证，通常等于
score = cross_val_score(regression, boston.data, boston.target, cv=10, scoring='neg_mean_squared_error')

print(score)
#[ 0.52939335  0.60461936 -1.60907519  0.4356399   0.77280671  0.40597035     0.23656049  0.38709149 -2.06488186 -0.95162992]
#给了十个小于1的数值
#[-16.41568627 -10.61843137 -18.30176471 -55.36803922 -16.01470588  -44.70117647 -12.2148     -91.3888     -57.764      -36.8134    ]
#将score换做MES时，结果明显变大了

（三）拟合正弦曲线

import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt

rng = np.random.RandomState(1)  #随机种子
#print(rng)这是一个迭代器
#a = rng.rand(80, 1)
#print(a)
x = np.sort(5 * rng.rand(80, 1), axis=0)
#随机生成二维数组，80行1列
#print(x)
y = np.sin(x).ravel()   #生成正弦曲线
#print(y)
y[::5] += 3 * (0.5 - rng.rand(16))  #在正弦曲线上加噪声
#随机生成16个数

#plt.scatter(x, y, edgecolor="black", c="darkorange", label="data")
#plt.show()

regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_1.fit(x, y)
regr_2.fit(x, y)

x_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
#[:, np.newaxis]是类切片操作，主要的作用是增加维度，将一维数组增加成二维数组
print(x_test.shape)
y_1 = regr_1.predict(x_test)
y_2 = regr_2.predict(x_test)

#print(y_1)
#print(y_2)

plt.figure()
plt.scatter(x, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.plot(x_test, y_1, color="cornflowerblue", label="max_depth=2", linewidth=2)
plt.plot(x_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

在这里插入图片描述
可以看出来，max_deepth=2的效果优于max_deepth=5的效果

五、泰坦尼克号生存者预测

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import  GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import numpy as np
data = pd.read_csv('data.csv')
#print(data)
#print(data.head(5))
#print(data.info())
'''
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object
'''
#通过观察可知Name、Sex、Ticket、Cabin、Embarked是中文，以及Cabin缺失值较多

#先drop掉不相关的列
data.drop(['Cabin', 'Name', 'Ticket'], inplace=True, axis=1)  #axis=1——>删除列
#print(data)

#处理缺失值
data['Age'] = data['Age'].fillna(data['Age'].mean())
#print(data.info())
'''
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Sex          891 non-null    object 
 4   Age          891 non-null    float64
 5   SibSp        891 non-null    int64  
 6   Parch        891 non-null    int64  
 7   Fare         891 non-null    float64
 8   Embarked     889 non-null    object 
'''
#此时可以观察到有两条数据集是为空，直接dropna
data = data.dropna()
#print(data.info())

#将中文转换为数字
#print(data['Embarked'].unique())  #['S' 'C' 'Q']

labels = data['Embarked'].unique().tolist()
#print(labels) #['S', 'C', 'Q']
data['Embarked'] = data['Embarked'].apply(lambda x: labels.index(x))
#将labels转换为索引值
#print(labels.index('S'))   #0

data['Sex'] = (data['Sex'] == 'felman').astype('int')
#将性别转换为整数0/1
#print(data['Sex'])

#print(data.head())

#设置特征值和标签
x = data.loc[:, data.columns != 'Survived']
y = data.loc[:, data.columns == 'Survived']
#print(x)
#print(y)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

#修正测试集和训练集的索引
for i in [x_train, x_test, y_train, y_test]:
    i.index = range(i.shape[0])

#print(x_train.head())
#print(x_test.head())

#寻找最恰当的max_depth方法
tr = []
te = []
for i in range(10):
    clf = DecisionTreeClassifier(random_state=15,
                                 max_depth=i+1,
                                 criterion='entropy')
    clf = clf.fit(x_train, y_train)
    score_tr = clf.score(x_train, y_train)
    score_te = cross_val_score(clf, x, y, cv=10).mean()
    #在每一个参数下都进行10次交叉验证，一共实验100次
    tr.append(score_tr)
    te.append(score_te)

print(max(te))
plt.plot(range(1, 11), tr, color='red', label='train')
plt.plot(range(1, 11), te, color='blue', label='test')
plt.xticks(range(1, 11))
plt.legend()
plt.show()

通过for循环寻找最合适的max_depth参数是一种办法，可以通过网格搜索来查找！

网格搜索
能够帮助我们同时调整多个参数的技术——枚举技术

#gini_thresholds = np.linespace(0, 0.5, 20)
#entropy_thresholds = np.linespace(0, 1, 20)

parameters = {'splitter': ('best', 'random'),
              'criterion': ("gini", "entropy"),
              'max_depth': [*range(1, 10)],
              'min_samples_leaf': [*range(1, 50, 5)],
              'min_impurity_decrease': [*np.linspace(0, 0.5, 20)]#生成20个0-0.5之间的数
             }

clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(x_train, y_train)

print(GS.best_params_)#从输入的参数和参数取值的列表中返回最佳组合
print(GS.best_score_)#网格搜索后的模型的评判标准

#{'criterion': 'gini', 'max_depth': 7, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 6, 'splitter': 'best'}
#0.7153865847414236