决策树原理与实战

最新推荐文章于 2024-06-15 10:08:04 发布

paradise smile

最新推荐文章于 2024-06-15 10:08:04 发布

阅读量283

点赞数

文章标签：决策树机器学习算法

本文链接：https://blog.csdn.net/weixin_46557333/article/details/127230374

版权

决策树

决策树比较适合分析离散数据

如果是连续数据要先转成离散数据再做分析

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ByvvtMsM-1665306861964)(C:\Users\25016\AppData\Roaming\Typora\typora-user-images\image-20221003223436971.png)]$

决策树算法：

70年代后期至80年代，Quinlan开发了ID3算法
Quinlan改进了ID3算法，称为C4.5算法
1984年，多位统计学家提出了CART算法

熵概念

1948年，香农提出了“信息熵”的概念

一条信息的信息量大小和它的不确定性有直接的关系，要搞清楚一件非常不确定的事情，或者是我们一无所知的事情，需要了解大量的信息——》信息量的度量就等于不确定性的多少。

信息熵的计算

信息熵公式：
$-\sum_xp(x)log_{2}p(x)$
假如有一个普通骰子A，扔出1-6的概率都是1/6

有一个骰子B，扔出6的概率为50%,扔出1-5的概率为10%

有一个骰子C，扔出6的概率为100%

骰子A：
$-(\frac{1}{6}\cdot log_{2}\frac{1}{6}) \cdot 6 \approx 2.585$
骰子B：
$-(\frac{1}{10} \cdot log_2\frac{1}{10})\cdot 5 -\frac{1}{2}\cdot log_2\frac{1}{2}\approx2.161$
骰子C：
$-1\cdot log_21 =0$

ID3算法

决策树会选择最大化信息增益来对结点进行划分。信息增益计算：
$-\sum_{i=1}^{m}p_ilog_2(p_i) \\ Info_A(D) = \sum_{j=1}^v\frac{|D_j|}{|D|}\cdot Info(D_j) \\ Gain(A) = Info(D) - Info_A(D)$

选择根结点-ID3算法

信息增益：
$Gain(A) = Info(D) - Info_A(D)$
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qfbNtAnm-1665306861966)(C:\Users\25016\AppData\Roaming\Typora\typora-user-images\image-20221009110211406.png)]$

$-\frac{9}{14}log_2(\frac{9}{14})-\frac{5}{14}log_2(\frac{5}{14})=0.940$

$Info_age(D) = \frac{5}{14}\cdot(-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5})\\ + \frac{4}{14}\cdot(-\frac{4}{4}log_2\frac{4}{4}-\frac{0}{4}log_2\frac{0}{4}) \\ + \frac{5}{14}\cdot(-\frac{3}{5}log_2\frac{3}{5}-\frac{2}{5}log_2\frac{2}{5}) \\ = 0.694$

$Gain(age) = Info(D) - Info_A(D) = 0.940 - 0.694 = 0.246$

类似：

Gain(income) = 0.029

Gain(student) = 0.151

Gain(credit_rating) = 0.048

选择信息增益最大的为根结点

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CNhrMig1-1665306861966)(C:\Users\25016\AppData\Roaming\Typora\typora-user-images\image-20221009111931206.png)]$

C4.5算法

信息增益的方法倾向于首先选择因子数较多的变量

信息增益的改进：增益率
$SplitInfo_A(D) = -\sum_{i=1}^{v}\frac{|D_j|}{|D|}\cdot log_2(\frac{|D_j|}{|D|})\\ GrainRate(A) = \frac{Grain(A)}{SplitInfo_A(D)}$

决策树实战

from sklearn.feature_extraction import DictVectorizer
from sklearn import tree
from sklearn import preprocessing
import csv

#读入数据
Dtree = open(r'AllElectronics.csv', 'r')
reader = csv.reader(Dtree)

#获取一行数据
headers = reader.__next__()
print(headers)

# 定义两个列表
featureList = []
labelList = []

for row in reader:
    # 把label存放到labelList
    labelList.append(row[-1])
    rowDict = {}
    for i in range(1, len(row)-1):
        #建立一个数据字典
        rowDict[headers[i]] = row[i]
    # 把字典存入到list
    featureList.append(rowDict)
    
print(featureList)


# 把数据转换为01表示
vec = DictVectorizer()
x_data = vec.fit_transform(featureList).toarray()
print("x_data" + str(x_data))


# 打印标签名称
print(vec.get_feature_names())
print("labelList" + str(x_data))

#把label转换为01表示
lb = preprocessing.LabelBinarizer()
y_data = lb.fit_transform(labelList)
print('y_data:' + str(y_data))

# 创建决策树分类器
model = tree.DecisionTreeClassifier(criterion='entropy')
#输入数据建立模型
model.fit(x_data, y_data)

#测试
x_test = x_data[0]
print('x_test:' + str(x_test))

predict = model.predict(x_test.reshape(1, -1))
print('predict:' + str(predict))

绘制决策树图

import graphviz

dot_data = tree.export_graphviz(model, out_file = None,
                               feature_names = vec.get_feature_names(),
                               class_names = lb.classes_,
                               filled=True,
                               rounded=True,
                               special_characters=True)
graph = graphviz.Source(dot_data)
graph.render('computer')
graph