决策树

熵的概念

一条信息的信息量大小和它的不确定性有直接的关系。需要了解大量信息->信息量的度量就等于不确定性的多少,进而统计各种结果的概率。

信息熵的公式

H [ x ] = − ∑ x p ( x ) l o g 2 p ( x ) H[x] = -\sum_x p(x)log_2p(x) H[x]=xp(x)log2p(x)

ID算法

决策树会选择最大化信息增益来对结点进行划分。信息增益计算:
I n f o ( D ) = − ∑ i = 1 m p i l o g 2 ( p i ) Info(D) = -\sum_{i=1}^{m} p_{i} log_{2}(p_i) Info(D)=i=1mpilog2(pi)
I n f o A ( D ) = ∑ j = 1 v ∣ D j ∣ ∣ D ∣ × I n f o ( D j ) Info_A(D) = \sum_{j=1}^{v}\frac{|D_j|}{|D|} \times Info(D_j) InfoA(D)=j=1vDDj×Info(Dj)
G a i n ( A ) = I n f o ( D ) − I n f o A ( D ) Gain(A) = Info(D) - Info_A(D) Gain(A)=Info(D)InfoA(D)

C4.5算法

信息增益的方法倾向于首先选择因子数较多的变量信息增益的改进:增益率
S p l i t I n f o A ( D ) = − ∑ j = 1 v ∣ D j ∣ ∣ D ∣ × l o g 2 ( ∣ D j ∣ ∣ D ∣ ) SplitInfo_A(D) = -\sum_{j=1}^{v}\frac{|D_j|}{|D|}\times log_2(\frac{|D_j|}{|D|}) SplitInfoA(D)=j=1vDDj×log2(DDj)
G r i a n R a t e ( A ) = G r a i n ( A ) S p l i t I n f o ( D ) GrianRate(A) = \frac{Grain(A)}{SplitInfo(D)} GrianRate(A)=SplitInfo(D)Grain(A)

CART算法

CART决策树的生成就是递归地构建二叉决策树的过程。
CART用基尼(Gini)系数最小化准则来进行特征选择,生成二叉树。
Gini系数计算:
G i n i ( D ) = 1 − ∑ i = 1 m p i 2 Gini(D) = 1-\sum_{i=1}^{m}p_{i}^{2} Gini(D)=1i=1mpi2
G i n i A ( D ) = ∣ D 1 ∣ D + D 2 D G i n i ( D 2 ) Gini_A(D) = \frac{|D_1|}{D} + \frac{D_2}{D}Gini(D_2) GiniA(D)=DD1+DD2Gini(D2)
Δ G i n i ( A ) = G i n i ( D ) − G i n i A ( D ) \Delta Gini(A) = Gini(D) - Gini_A(D) ΔGini(A)=Gini(D)GiniA(D)

剪枝

剪枝的目的是防止过拟合,划分越复杂,越容易产生过拟合情况。

决策树的优缺点

优点:
小规模数据集有效
缺点:
处理连续变量不好
类别较多时,错误增加的比较快
不能处理大量数据

决策树python

需要的模块

from sklearn.feature_extraction import DictVectorizer
from sklearn import tree
from sklearn import preprocessing
import csv

读入数据并分类

# 读入数据
Dtree = open(r'AllElectronics.csv', 'r')
reader = csv.reader(Dtree)

# 获取第一行数据
headers = reader.__next__()
print(headers)

# 定义两个列表
featureList = []
labelList = []

# 
for row in reader:
    # 把label存入list
    labelList.append(row[-1])
    rowDict = {}
    for i in range(1, len(row)-1):
        #建立一个数据字典
        rowDict[headers[i]] = row[i]
    # 把数据字典存入list
    featureList.append(rowDict)

print(featureList)

将数据用机器语言描述

# 把数据转换成01表示
vec = DictVectorizer()
x_data = vec.fit_transform(featureList).toarray()
print("x_data: " + str(x_data))

# 打印属性名称
print(vec.get_feature_names())

# 打印标签
print("labelList: " + str(labelList))

# 把标签转换成01表示
lb = preprocessing.LabelBinarizer()
y_data = lb.fit_transform(labelList)
print("y_data: " + str(y_data))

构建决策树

# 创建决策树模型 //min_samples_split 最小样本划分 >=2
model = tree.DecisionTreeClassifier(criterion='entropy',min_samples_split=6)
# 输入数据建立模型
model.fit(x_data, y_data)

进行数据测试,验证模型

# 测试
x_test = x_data[0]
print("x_test: " + str(x_test))

predict = model.predict(x_test.reshape(1,-1))   # reshape 给数据增加一行维度,第二个参数为自动匹配
print("predict: " + str(predict))

导出结果,将决策树用二叉树图的形式表示

# 导出决策树
# pip install graphviz
# http://www.graphviz.org/  在这网站下载软件https://graphviz.gitlab.io/_pages/Download/Download_windows.html
## 在安装目录下,找到bin文件,并添加到环境变量中
import graphviz 

dot_data = tree.export_graphviz(model, 
                                out_file = None, 
                                feature_names = vec.get_feature_names(),
                                class_names = lb.classes_,
                                filled = True,
                                rounded = True,
                                special_characters = True)
graph = graphviz.Source(dot_data)
graph.render('computer')
graph
vec.get_feature_names()
lb.classes_
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值