机器学习决策树

yy.d

已于 2023-09-03 16:51:02 修改

阅读量59

点赞数

文章标签：机器学习决策树人工智能

于 2023-09-01 17:21:18 首次发布

本文链接：https://blog.csdn.net/yy512022/article/details/132625886

版权

sklearn中决策树的类都在“tree”这个模块之下，该模块包含五个类

tree.DecisionTreeClassifier	分类树
tree.DecisionTreeRegressor	回归树
tree.export_graphviz	将生成的决策树导出为DOT格式，画图专用
tree.ExtraTreeClassifier	高随机版本的分类树
tree.ExtraTreeRegressor	高随机版本的回归树

sklearn 建模流程：

from sklearn import tree#导入需要的模块

clf=tree.DecisionTreeClassifier()#实例化

clf=clf.fit(x_train,y_train)#用训练集数据训练模型

result=clf.score(x_test,y_test)#导入测试集，从接口中调用需要的信息

1.分类树

语法：

class sklearn.tree.DecisionTreeClassifier (criterion=’gini’,splitter=’best’,max_depth=None,min_samples_split=2,min_samples_leaf=1, min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_nodes=None, min_impurity_decrease=0.0,min_impurity_split=None,class_weight=None,presort=False)

1.2. 重要参数

criterion

这个参数用于决定不纯度的计算方法（对分类树来说衡量最佳节点和最佳分支的指标叫做“不纯度”，越低决策树对训练集的拟合越好）

输入"entropy"，使用信息熵，信息熵对不纯度的计算更加敏感，容易过拟合（当决策树的拟合程度不够时使用信息熵）
输入"gini"，使用基尼系数,默认（维度很大，噪音很大时使用基尼系数；纬度低，数据比较清晰的时候没有区别）

splitter

splitter用来控制决策树中的随机选项，有两种输入值默认"best"

输入"best"，决策树在分枝时虽然随机，但还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importance_查看)
输入"random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因为这写不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式

1.2.1 剪枝

过拟合的决策树很容易在训练集上表现的好，在测试集上表现得糟糕，因为当一棵决策树对训练集有了过于优秀的解释性，他找出的规则必然包含了训练样本中的噪声，并使他对未知数据的拟合程度不够。

score_trian=clf.score(Xtrain,Ytrain)
score_train

用于查看对训练集的拟合程度

1.2.1.1 剪枝策略

max_depth

限制树的最大深度，超过设定深度的树枝全部剪掉，适用于高纬度低样本量，建议从=3开始尝试，看看拟合效果，再决定是否增加设定深度

min_samples_split&min_samples_leaf

min_samples_split限定，一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分枝，否则分枝就不会发生
min_samples_leaf 限定一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。建议从=5开始使用。

如果叶节点中含有的样本量变化很大，建议输入浮点数作为样本量的百分比来使用。同时，这个参数可以保证每个叶子的最小尺寸，可以在回归问题中避免低方差，过拟合的叶子节点出现。对于类别不多的分类问题，=1通常就是最佳选择。

max_features & min_impurity_decrease

max_features 一般用作树的精修，max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃，较暴力的限制了高纬度数据的过拟合剪枝参数
min_impurity_decrease 限制信息增益的大小，信息增益小于设定数值的分支就不会发生

信息增益，信息增益是指父节点的信息熵减去子节点的加权平均信息熵，信息增益越大代表性这个分支对整个树的决策就有效

1.2.1.1 确认最优的剪枝参数

使用确定超参数的曲线来判断

超参数的学习曲线，是一条以超参数的取值为横坐标，模型的度量指标为纵坐标的曲线，它是用来衡量不同超参数取值下模型的表现的线，在我们建好的决策树里，我们的模型度量指标就是score

1.2.2 目标权重参数

class_weight & min_weight_fraction_leaf

1. class_weight 完成样本标签平衡的参数，默认为None，此模式表示自动给与数据集中的所有标签相同的权重

样本标签不平衡是说在一组数据集中，标签的一类天生占有很大的比例。我们需要使用class_weight参数对样本标签进行一定的均衡，给少量标签更多的权重，让模型更偏向少数类，向捕获少数类方向建模

2. min_weight_fraction_leaf 有了class_weight样本量受权重影响，这时候剪枝需要搭配min_weight_fraction_leaf这个基于权重的剪枝参数来使用

random_state

决策树从最重要的特征中随机选择出一个特征来进行分枝，因此每次生成的决策树都不一样，这个功能由参数random_state控制。

random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

1.2.3 分类树参数列表

1.2 重要属性及其接口

属性

fearture_importances_

属性是在模型训练之后，能够调用查看的模型的各种性质，对决策树来说，对重要的是fearture_importances_，能够查看各个特征对模型的重要性

1.2.1 分类树属性列表

接口

1. fit 用于训练模型的接口

2. score 用给定测试数据和标签的平均准度作为模型的评分标准

3. apply 输入测试集或样本点，返回每个测试样本所在的叶子节点的索引

4. predict predict输入测试集返回每个测试样本的标签

1.2.2 分类树接口列表

2. 回归树

处理连续性变量

语法:

DecisionTreeRegressor class sklearn.tree.DecisionTreeRegressor (criterion='mse, splitter=%best, max depth=Nonemin samples split=2, min samples leaf=1, min weight fraction leaf=0.0, max features=None,random state=None, max leaf nodes=None, min impurity decrease=0.0, min impurity split=None, presort=False)

几乎所有参数，属性及接口都和分类树一模一样。需要注意的是，在回归树种，没有标签分布是否均衡的问题，因此没有class weight这样的参数

2.1 重要参数

criterion

与分类树中代表不纯度不同，回归树中criterion为衡量分支质量的指标，支持的标准有三种：

输入"mse"使用均方误差mean squared error(MSE)，父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失
输入“friedman_mse”使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差
输入"mae"使用绝对平均误差MAE (mean absolute error)，这种指标使用叶节点的中值来最小化L1损失

2.2 属性

属性中最重要的依然是feature_importances

2.3 接口

接口依然是apply, fit, predict, score最核心‘

2.4 实例：一维回归的图像绘制

我们用回归树来拟合正弦曲线，并且添加噪声来观察回归树的表现

#导入需要的库
import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt

#创建一条含有噪声的正弦曲线
/*
在这一步，我们的基本思路是，先创建一组随机的，分布在0~5上的横坐标轴的取值(X)，然后将这一组值放到sin函数中去生成纵坐标的值(y)，接着再到y上去添加噪声。全程我们会使用numpy库来为我们生成这个正弦曲线。
*/
#生成随机种子，并且都为同样的模式，类似树中的random_state，里面的参数为1（随便什么都可以，自行定义）
rng=np.random.RandomState(1)
#生成随机数，随机生成0-1之间的数，10即生成10个数
rng.rand(10)
#生成80个随机数，但是为二维，又因为最后要将随机数分成测试集和训练集，导入决策树进行拟合
#并且.fit()这些接口不允许一维的数据出现
rng.rand(80,1)
#0-1的数太小，*5，又因为在x轴上为从小到大，因此排序
x=np.sort(5*rng.rand(80,1),axis=0)
#纵坐标数据
y=np.sin(x)
#二维数据

#我们处理单标签问题，因此y只能为一维
#使用.ravel()进行降维，将n维降成n-1维，多次运行可以降为一维
y = np.sin(x).ravel()
#python数据中一维数据不分行列

#此时的图
plt.figure()
#画散点图
plt.scatter(x,y,s=20,edgecolor="black",c="darkorange",label="data")

#添加噪声
#y[::5]切片，利用步长，全部的行列中，没5个切出一个数，这个数+3*（0.5-一个0-1中的任意数）
#相当于+一个-0.5到0.5的数
y[::5]+=3*(0.5-rng.rand(16))

#再次观察添加噪声的图
plt.figure()
plt.scatter(x,y,s=20,edgecolor="black",c="darkorange",label="data")

#实例化&训练模型

#建两个模型，在不同的拟合效果下，回归树是怎样表现的
regr_1=DecisionTreeRegressor(max_depth=2)
regr_2=DecisionTreeRegressor(max_depth=5)
regr_1.fit(x,y)
regr_2.fit(x,y)

#测试集导入模型，预测结果
#np.arange(开始点，结束点，步长),生成有序的数列
np.arange(0.0,5.0,0.01)
#np.newaxis增加维度
#更改为二维
X_test=np.arange(0.0,5.0,0.01)[:,np.newaxis]
#导入模型进行使用,.predict()导入测试集之后，得到每个测试样本点回归或分类的结果
y_1=regr_1.predict(X_test)
y_2=regr_2.predict(X_test)

#绘制图像
plt.figure()
#画散点图，s为画散点图点的大小
plt.scatter(x,y,s=20, edgecolor="black",c="darkorange",label="data")
#画折线图
plt.plot(X_test,y_1,color="cornflowerblue",label="max_depth=2",linewidth=2)
plt.plot(X_test,y_2,color="yellowgreen", label="max_depth=5",linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
#显示图例
plt.legend()
plt.show()

#max_depth=2
#max_depth=5过拟合，受噪音影响

3. 实例：泰坦尼克号幸存者的预测

#导入需要的库
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score

#导入数据库的，探索数据
data=pd.read_csv(r"D:\Gitee\jupyter\泰坦尼克号\train.csv")
data

data.info()

data.head()

#数据的预处理
#筛选特征,删除'Name','Ticket','Cabin'这三个无用特征
data.drop(['Name','Ticket','Cabin'],inplace=True,axis=1)

#处理缺失值
#取Age的平均值进行填充
#.fillna()
data["Age"]=data["Age"].fillna(data["Age"].mean())

#删除仅有两个缺失值的Embarked,有缺失值的行就进行删除
#.dropna()
data=data.dropna()

#将文字变成数字

#Embarked
#.unique()删除重复值
#.tolist()转换成列表
labels=data["Embarked"].unique().tolist()
print(labels)

#利用lanbda函数
#将舱门转换为1,2,3
data["Embarked"]=data["Embarked"].apply(lambda x:labels.index(x))

#Age
labels=data["Sex"].unique().tolist()
data["Sex"]=data["Sex"].apply(lambda x:labels.index(x))

#另一种方法转换二分类
#得到布尔值
#data["Sex"]=(data["Sex"]=="male")
#将布尔值转换为整数
#(data["Sex"]=male).astype("int")

data.head()

#分离特征和标签
#得到x
x=data.iloc[:,data.columns!="Survived"]

#得到y
y=data.iloc[:,data.columns=="Survived"]

#划分训练集和测试集
Xtrain,Xtest,Ytrain,Ytest=train_test_split(x,y,test_size=0.3)

#实例化
#因为随机分配，索引全部被打乱，将大乱的的索引恢复
for i in [Xtrain,Xtest,Ytrain,Ytest]:
    i.index=range(i.shape[0])

clf=DecisionTreeClassifier(random_state=50)
clf=clf.fit(Xtrain,Ytrain)
score_pre=clf.score(Xtest,Ytest)

score_pre

#使用交叉验证看看
clf=DecisionTreeClassifier(random_state=50)
score=cross_val_score(clf,x,y,cv=10).mean()

score
#没有改善

#进行调参
#通过max_depth,观察模型在训练集和测试集上的表现
tr=[]
te=[]
for i in range(10):
    clf=DecisionTreeClassifier(random_state=50
                              ,max_depth=i+1
                              ,criterion="entropy"
                              )
    clf=clf.fit(Xtrain,Ytrain)
    score_tr=clf.score(Xtrain,Ytrain)
    score_te=cross_val_score(clf,x,y,cv=10).mean()
    tr.append(score_tr)
    te.append(score_te)

print(max(te))

plt.plot(range(1,11),tr,color="red",label="train")
plt.plot(range(1,11),te,color="blue",label="test")
#plt.xticks()
plt.xticks(range(1,11))
plt.legend()
plt.show()

#如果发现测试集始终在训练集下面，可以尝试增加拟合度,criterion="entropy"

#利用网格搜索调参,criterion
#parameters：一串参数和这些参数对应的范围，我们希望网格搜索来搜索的参数的取值范围
parameters ={"criterion":("gini","entropy")
}              
clf = DecisionTreeClassifier(random_state=90)
GS = GridSearchCV(clf,parameters,cv=10)
GS = GS.fit(Xtrain,Ytrain)

print(GS.best_params_)
GS.best_score_

#利用网格搜索调参,splitter,发现无变化
#max_depth
parameters ={"max_depth":np.arange(1,10) 
}              
clf = DecisionTreeClassifier(random_state=50
                            ,criterion="entropy")
GS = GridSearchCV(clf,parameters,cv=10)
GS = GS.fit(Xtrain,Ytrain)

print(GS.best_params_)
GS.best_score_

#利用网格搜索调参，min_samples_leaf,发现无变化
#min_impurity_decrease,无变化
#np.linspace(,0.5,50) 在0-0.5中有大小的随机50个数
parameters ={"min_impurity_decrease":[*np.linspace(0,0.5,50)]
}              
clf = DecisionTreeClassifier(random_state=50
                            ,criterion="entropy"
                            ,max_depth=4)
GS = GridSearchCV(clf,parameters,cv=10)
GS = GS.fit(Xtrain,Ytrain)

print(GS.best_params_)
GS.best_score_

#最终结果
clf = DecisionTreeClassifier(random_state=50
                            ,criterion="entropy"
                            ,max_depth=4)
clf=clf.fit(Xtrain,Ytrain)
score=clf.score(Xtest,Ytest)

print(score)
score-score_pre