决策树

最新推荐文章于 2022-11-21 14:37:44 发布

雪天枫

最新推荐文章于 2022-11-21 14:37:44 发布

阅读量207

点赞数

分类专栏： python 深度学习算法文章标签： python 深度学习

本文链接：https://blog.csdn.net/zhaodeming000/article/details/90511485

版权

python 深度学习算法专栏收录该内容

10 篇文章 0 订阅

订阅专栏

熵的概念

一条信息的信息量大小和它的不确定性有直接的关系。需要了解大量信息->信息量的度量就等于不确定性的多少，进而统计各种结果的概率。

信息熵的公式

$-\sum_x p(x)log_2p(x)$

ID算法

决策树会选择最大化信息增益来对结点进行划分。信息增益计算：
$-\sum_{i=1}^{m} p_{i} log_{2}(p_i)$
$Info_A(D) = \sum_{j=1}^{v}\frac{|D_j|}{|D|} \times Info(D_j)$
$Gain(A) = Info(D) - Info_A(D)$

C4.5算法

信息增益的方法倾向于首先选择因子数较多的变量信息增益的改进：增益率
$SplitInfo_A(D) = -\sum_{j=1}^{v}\frac{|D_j|}{|D|}\times log_2(\frac{|D_j|}{|D|})$
$\frac{Grain(A)}{SplitInfo(D)}$

CART算法

CART决策树的生成就是递归地构建二叉决策树的过程。
CART用基尼(Gini)系数最小化准则来进行特征选择，生成二叉树。
Gini系数计算：
$1-\sum_{i=1}^{m}p_{i}^{2}$
$Gini_A(D) = \frac{|D_1|}{D} + \frac{D_2}{D}Gini(D_2)$
$\Delta Gini(A) = Gini(D) - Gini_A(D)$

剪枝

剪枝的目的是防止过拟合，划分越复杂，越容易产生过拟合情况。

决策树的优缺点

优点：
小规模数据集有效
缺点：
处理连续变量不好
类别较多时，错误增加的比较快
不能处理大量数据

决策树python

需要的模块

from sklearn.feature_extraction import DictVectorizer
from sklearn import tree
from sklearn import preprocessing
import csv

读入数据并分类

# 读入数据
Dtree = open(r'AllElectronics.csv', 'r')
reader = csv.reader(Dtree)

# 获取第一行数据
headers = reader.__next__()
print(headers)

# 定义两个列表
featureList = []
labelList = []

# 
for row in reader:
    # 把label存入list
    labelList.append(row[-1])
    rowDict = {}
    for i in range(1, len(row)-1):
        #建立一个数据字典
        rowDict[headers[i]] = row[i]
    # 把数据字典存入list
    featureList.append(rowDict)

print(featureList)

将数据用机器语言描述

# 把数据转换成01表示
vec = DictVectorizer()
x_data = vec.fit_transform(featureList).toarray()
print("x_data: " + str(x_data))

# 打印属性名称
print(vec.get_feature_names())

# 打印标签
print("labelList: " + str(labelList))

# 把标签转换成01表示
lb = preprocessing.LabelBinarizer()
y_data = lb.fit_transform(labelList)
print("y_data: " + str(y_data))

构建决策树

# 创建决策树模型 //min_samples_split 最小样本划分 >=2
model = tree.DecisionTreeClassifier(criterion='entropy',min_samples_split=6)
# 输入数据建立模型
model.fit(x_data, y_data)

进行数据测试，验证模型

# 测试
x_test = x_data[0]
print("x_test: " + str(x_test))

predict = model.predict(x_test.reshape(1,-1))   # reshape 给数据增加一行维度，第二个参数为自动匹配
print("predict: " + str(predict))

导出结果，将决策树用二叉树图的形式表示

# 导出决策树
# pip install graphviz
# http://www.graphviz.org/  在这网站下载软件https://graphviz.gitlab.io/_pages/Download/Download_windows.html
## 在安装目录下，找到bin文件，并添加到环境变量中
import graphviz 

dot_data = tree.export_graphviz(model, 
                                out_file = None, 
                                feature_names = vec.get_feature_names(),
                                class_names = lb.classes_,
                                filled = True,
                                rounded = True,
                                special_characters = True)
graph = graphviz.Source(dot_data)
graph.render('computer')

graph
vec.get_feature_names()
lb.classes_

雪天枫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

熵的概念一条信息的信息量大小和它的不确定性有直接的关系。需要了解大量信息->信息量的度量就等于不确定性的多少，进而统计各种结果的概率。信息熵的公式H[x]=−∑xp(x)log2p(x)H[x] = -\sum_x p(x)log_2p(x)H[x]=−∑xp(x)log2p(x)ID算法决策树会选择最大化信息增益来对结点进行划分。信息增益计算：Info(D)=−∑i=1m...
复制链接

扫一扫

专栏目录