决策树：挑出好西瓜

最新推荐文章于 2022-06-22 09:37:13 发布

WOOZI9600L²

最新推荐文章于 2022-06-22 09:37:13 发布

阅读量3k

点赞数

分类专栏： python 文章标签：决策树机器学习人工智能

本文链接：https://blog.csdn.net/weixin_46129506/article/details/120987574

版权

本文详细介绍了决策树算法，包括ID3、C4.5和CART算法的原理、优缺点及Python实现。通过对信息熵、信息增益、基尼指数等概念的解析，展示了如何构建和评估决策树。同时，文章讨论了防止过拟合的剪枝策略，包括预剪枝和后剪枝方法。

摘要由CSDN通过智能技术生成

一、概念

决策树在机器学习中也是比较常见的一种算法，属于监督学习中的一种。看字面意思应该也比较容易理解，相比其他算法比如支持向量机(SVM)或神经网络，似乎决策树感觉“亲切”许多。

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失值不敏感，可以处理不相关特征数据。

缺点：可能会产生过度匹配的问题。

使用数据类型：数值型和标称型。
最经典的决策树算法有ID3、C4.5、CART，其中ID3算法是最早被提出的，它可以处理离散属性样本的分类，C4.5和CART算法则可以处理更加复杂的分类问题。

问题引入
夏天买西瓜时，我一般先选瓜皮有光泽的（新鲜），再拍一拍选声音清脆的（成熟），这样挑出来的好瓜的可能就比较大了。那么我挑西瓜的决策树是这样的：
在这里插入图片描述

以下表格中的西瓜样本构建决策树模型。
在这里插入图片描述

二、ID3决策树算法（不使用Sklearn）

划分数据集的大原则是：将无序的数据变得更加有序。
我们可以使用多种方法划分数据集，但是每种方法都有各自的优缺点。于是我们这么想，如果我们能测量数据的复杂度，对比按不同特征分类后的数据复杂度，若按某一特征分类后复杂度减少的更多，那么这个特征即为最佳分类特征。
Claude Shannon 定义了熵（entropy）和信息增益(information gain)。

1.信息熵

样本集合D中第k类样本所占的比例p_k（k=1,2,…,|Y|），|Y|为样本分类的个数，则D的信息熵为：
在这里插入图片描述
Ent(D)的值越小，则D的纯度越高。直观理解一下：假设样本集合有2个分类，每类样本的比例为1/2，Ent(D)=1；只有一个分类，Ent（D）= 0，显然后者比前者的纯度高。
在西瓜样本集中，共有17个样本，其中正样本8个，负样本9个，样本集的信息熵为：
在这里插入图片描述

2.信息增益

使用属性a对样本集D进行划分所获得的“信息增益”的计算方法是，用样本集的总信息熵减去属性a的每个分支的信息熵与权重（该分支的样本数除以总样本数）的乘积，通常，信息增益越大，意味着用属性a进行划分所获得的“纯度提升”越大。因此，优先选择信息增益最大的属性来划分。设属性a有V个可能的取值{ a^1,a ^2, … ,a ^V }，则属性a的信息增益为：
在这里插入图片描述
西瓜样本集中，以属性“色泽”为例，它有3个取值{青绿、乌黑、浅白}，对应的子集D1 （色泽=青绿）中有6个样本，其中正负样本各3个，D2（色泽=乌黑）中有6个样本，正样本4个，负样本2个，D^3（色泽=浅白）中有5个样本，正样本1个，负样本4个。
在这里插入图片描述
同理也可以计算出其他几个属性的信息增益，选择信息增益最大的属性作为根节点来进行划分，然后再对每个分支做进一步划分。

3. 增益率(gain ratio)

基于信息增益的最优属性划分原则——信息增益准则，对可取值数据较多的属性有所偏好。C4.5算法使用增益率替代信息增益来选择最优划分属性，增益率定义为：

           Gain_ratio(D,a) = Gain(D,a)/IV(a)

其中

           IV(a) = -∑v=1 |Dv|/|D|·log2 |Dv|/|D|

称为属性a的固有值。属性a的可能取值数目越多（即V越大），则IV(a)的值通常会越大。这在一定程度上消除了对可取值数据较多的属性的偏好。
事实上，增益率准则对可取值数目较少的属性有所偏好，C4.5算法并不是直接使用增益率准则，而是先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

4. 基尼指数(Gini index)

CART决策树算法使用基尼指数来选择划分属性，基尼指数定义为：

          Gini(D) = ∑k=1 ∑k'≠1 pk·pk' = 1- ∑k=1  pk·pk

可以这样理解基尼指数：从数据集D中随机抽取两个样本，其类别标记不一致的概率。Gini(D)越小，纯度越高。
属性a的基尼指数定义：

         Gain_index(D,a) = ∑v=1 |Dv|/|D|·Gini(Dv)

使用基尼指数选择最优划分属性，即选择使得划分后基尼指数最小的属性作为最优划分属性。

5.python编码实现

导入模块：

import pandas as pd
import numpy as np
from collections import Counter
from math import log2

数据获取与处理：

#数据获取与处理
def getData(filePath):
    data = pd.read_excel(filePath)
    return data

def dataDeal(data):
    dataList = np.array(data).tolist()
    dataSet = [element[1:] for element in dataList]
    return dataSet

获取属性名称：

#获取属性名称
def getLabels(data):
    labels = list(data.columns)[1:-1]
    return labels
#获取类别标记
def targetClass(dataSet):
    classification = set([element[-1] for element in dataSet])
    return classification

将分支结点标记为叶结点，选择样本数最多的类作为类标记：

#将分支结点标记为叶结点，选择样本数最多的类作为类标记
def majorityRule(dataSet):
    mostKind = Counter([element[-1] for element in dataSet]).most_common(1)
    majorityKind = mostKind[0][0]
    return majorityKind

计算信息熵：

#计算信息熵
def infoEntropy(dataSet):
    classColumnCnt = Counter([element[-1] for element in dataSet])
    Ent = 0
    for symbol in classColumnCnt:
        p_k = classColumnCnt[symbol]/len(dataSet)
        Ent = Ent-p_k*log2(p_k)
    return Ent

子数据集构建：

#子数据集构建
def makeAttributeData(dataSet,value,iColumn):
    attributeData = []
    for element in dataSet:
        if element[iColumn]==value:
            row = element[:iColumn]
            row.extend(element[iColumn+1:])
            attributeData.append(row)
    return attributeData

计算信息增益：

#计算信息增益
def infoGain(dataSet,iColumn):
    Ent = infoEntropy(dataSet)
    tempGain = 0.0
    attribute = set([element[iColumn] for element in dataSet])
    for value in attribute:
        attributeData = makeAttributeData(dataSet,value,iColumn)
        tempGain = tempGain+len(attributeData)/len(dataSet)*infoEntropy(attributeData)
        Gain = Ent-tempGain
    return Gain

选择最优属性：

#选择最优属性                
def selectOptimalAttribute(dataSet,labels):
    bestGain = 0
    sequence = 0
    for iColumn in range(0,len(labels)):#不计最后的类别列
        Gain = infoGain(dataSet,iColumn)
        if Gain>bestGain:
            bestGain = Gain
            sequence =