决策树

最新推荐文章于 2021-01-05 21:26:55 发布

sharonuuu

最新推荐文章于 2021-01-05 21:26:55 发布

阅读量322

点赞数 1

本文链接：https://blog.csdn.net/weixin_43799419/article/details/104046372

版权

决策树是一种基于树形结构的机器学习算法，用于分类和回归。本文介绍了决策树的基础，包括熵、信息增益和基尼指数等概念，以及sklearn接口下的决策树模型。还详细讨论了CART算法，包括回归树和分类树的构建，以及剪枝方法，旨在避免过拟合问题。

摘要由CSDN通过智能技术生成

决策树

决策树是一种树型结构的机器学习算法,它每个节点验证数据一个属性,根据该属性进行分割数据,将数据分布到不同的分支上,直到叶子节点,叶子结点上表示该样本的label. 每一条从根节点到叶子节点的路径表示分类[回归]的规则.

sklearn 接口

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris, load_boston
from sklearn import tree
from sklearn.model_selection import train_test_split
# 分类树
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
clf = tree.DecisionTreeClassifier()
clf = clf.fit(X_train, y_train)
print ("Classifier Score:", clf.score(X_test, y_test))
tree.plot_tree(clf.fit(X, y)) 
plt.show()

在这里插入图片描述

# 回归树
X, y = load_boston(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
clf = tree.DecisionTreeRegressor()
clf = clf.fit(X_train, y_train)

print ("Regression Score:", clf.score(X_test, y_test))
tree.plot_tree(clf.fit(X, y)) 
plt.show()

决策树详解

信息论基础

首先先来几个概念,我们后面介绍决策树原理的时候会提到,这里可以先扫一眼,用到的时候再回来看.

熵和信息熵

熵，热力学中表征物质状态的参量之一，用符号S表示，其物理意义是体系混乱程度的度量. 可以看出,熵表示的是体系的不确定性大小. 熵越大, 物理的不确定性越大. 1948年，香农提出了“信息熵”的概念，才解决了对信息的量化度量问题. 同理, 信息熵越小,数据的稳定性越好,我们更加相信此时数据得到的结论. 换言之, 我们现在目的肯定熵越小,机器学习得到的结果越准确.

信息熵表示随机变量不确定性的度量,设随机标量X是一个离散随机变量，其概率分布为:
$P(X=x_i)=p_i, i=1,2,...,n$
则随机变量X的熵定义为:
$H(X)=-\sum_{i=1}^{n}p_ilog{p_i}$
熵越大，随机变量的不确定性就越大，当 $p_i=\frac{1}{n}$ 时，
随机变量的熵最大等于logn，故 $\leq H(P) \leq logn$ .

条件熵

条件熵就是在给定X的条件的情况下，随机标量Y的条件，记作 $H (Y ∣ X)$ ，可以结合贝叶斯公式进行理解，定义如下
$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)$
这里 $p_i=P(X=x_i),i=1,2,...,n$ .
一般在基于数据的估计中，我们使用的基于极大似然估计出来的经验熵和经验条件熵.