决策树
文章目录
1.1 决策树是如何工作的
决策树本质是图结构,只需要问一系列问题就可以对数据进行分类。例如
例如我们现在发现了一种新物种Python,它是冷血动物,体表带鳞片,并且不是胎生,我们就可以通过这颗决策树来判断它的所属类别。可以看出,在这个决策过程中,我们一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点,在得到结论前的每一个问题都是中间节点,而得到的每一个结论都叫做叶子节点。
关键概念:节点
根节点:没有进边,有出边。包含最初的,针对特征的提问。
中间节点:既有进边也有出边,进边只有一条,出边可以有很多条。都是针对特征的提问
叶子节点:有进边,没有出边,每个叶子节点都是一个类别标签
子节点和父节点:在两个相连的节点中,更接近根节点的是父节点,另一个是子节点
决策树算法的核心是要解决两个问题:
1、如何从数据表中找出最佳节点和最佳分支
2、如何让决策树停止生长,防止过拟合
1.2 sklearn中的决策树
模块中sklearn.tree
sklearn中决策树的类都在tree这个模块之下。这个模块总共包含五个类:
tree.DecisionTreeClassifier 分类树
tree.DecisionTreeRegressor 回归树
tree.export_graphviz 将生成的决策树导出位Dot格式,画图专用
tree.ExtraTreeClassifier 高随机版本的分类树
tree.ExtraTreeRegressor 高随机版本的回归树
主要讲解分类树和回归树,并画图呈现
sklearn的基本建模流程
在那之前,我们先来了解一下sklearn建模的基本流程
1、实例化,建立评估模型对象
2、通过模型接口训练模型
3、通过模型接口提取需要的信息
分类树对应的代码是:
from sklearn import tree #导入需要的模块
clf = tree.DecisionTreeClassifier() #实例化
clf = clf.fit(X_train,y_train) #用训练集数据训练模型
result = clf.score(X_test,y_test) #导入测试集,从接口中调用需要的信息
2 DecisionTreeClassifier
class sklearn.tree.DecisionTreeClassifier (criterion=’gini’, splitter=’best’, max_depth=None,
min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None,
random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None,
class_weight=None, presort=False)
2.1 重要参数
2.1.1 criterion
为了要将表格转化为一个树,决策树需要找出最佳节点和最佳的分支方法。对分类树来说,最佳的衡量指标就是不纯度。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分支方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。
不纯度基于节点来计算,树种的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是说,在同一颗决策树上,叶子节点的不纯度一定是最低的
criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:
1、输入entropy,使用信息熵
2、输入gini,使用基尼系数
信息增益:父节点的信息熵减去子节点的信息熵
建立一棵树
#!/usr/bin/python
# -*- coding:utf-8 -*-
import pydotplus
from sklearn