sklearn笔记17决策树的使用

最新推荐文章于 2023-03-29 11:25:47 发布

可可茜里的传说

最新推荐文章于 2023-03-29 11:25:47 发布

阅读量215

点赞数

分类专栏： python scikit-learn模块文章标签： sklearn 决策树 python

本文链接：https://blog.csdn.net/weixin_44632711/article/details/121102339

版权

python scikit-learn模块专栏收录该内容

58 篇文章 4 订阅

订阅专栏

完整代码 sklearn代码12 2-决策树的使用及原理

import numpy as np

from sklearn.tree import DecisionTreeClassifier

from sklearn import datasets

import matplotlib.pyplot as plt
%matplotlib inline

from sklearn import tree

from sklearn.model_selection import train_test_split

在这里插入图片描述

X,y = datasets.load_iris(True)

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.2,random_state = 1024)

# 数据清洗,即X,y

# 特征工程

# 使用模型进行训练

# 模型参数调优

# sklearn所有算法封装好了
# 直接用,使用规则如下

clf = DecisionTreeClassifier(criterion='entropy')

clf.fit(X_train,y_train)

y_ = clf.predict(X_test)

from sklearn.metrics import accuracy_score

accuracy_score(y_test,y_)

在这里插入图片描述

# 调整大小
plt.figure(figsize=(12,9))
_ = tree.plot_tree(clf)   #绘制树形图

在这里插入图片描述

# 调整大小
plt.figure(figsize=(12,9))
_ = tree.plot_tree(clf,filled=True)   #绘制树形图 filled调整颜色

在这里插入图片描述

39/120*np.log2(120/39)+42/120*np.log2(120/42)+39/120*np.log2(120/39)

在这里插入图片描述

42/81*np.log2(81/42)+ 39/81*np.log2(81/39)

# 调整大小
plt.figure(figsize=(18,12))
_ = tree.plot_tree(clf,filled=True,feature_names=feature_names)   #绘制树形图 filled调整颜色
plt.savefig('./tree.jpg')

在这里插入图片描述

clf = DecisionTreeClassifier(criterion='entropy',max_depth=1)  #深度为1

clf.fit(X_train,y_train)

y_ = clf.predict(X_test)

from sklearn.metrics import accuracy_score

print(accuracy_score(y_test,y_))

plt.figure(figsize=(18,12))

_ = tree.plot_tree(clf,filled=True,feature_names=feature_names)

在这里插入图片描述
深度变深，准确率提升

# 书的深度变浅，树的裁剪

clf = DecisionTreeClassifier(criterion='entropy',max_depth=2)  #深度为1

clf.fit(X_train,y_train)

y_ = clf.predict(X_test)

from sklearn.metrics import accuracy_score



print(accuracy_score(y_test,y_))

plt.figure(figsize=(18,12))

_ = tree.plot_tree(clf,filled=True,feature_names=feature_names)

在这里插入图片描述

裂分标准

在这里插入图片描述
那个值最大，所含信息量越大，优先选择波动大的作为裂分条件

属性列表

由上可以看出波动性只是一个参考标准

在这里插入图片描述

可可茜里的传说

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
sklearn笔记17决策树的使用

import numpy as npfrom sklearn.tree import DecisionTreeClassifierfrom sklearn import datasetsimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn import tree
复制链接

扫一扫

专栏目录