统计学习方法《决策树》

最新推荐文章于 2022-07-03 01:55:21 发布

yangsenzk

最新推荐文章于 2022-07-03 01:55:21 发布

阅读量600

点赞数

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/yangsenuestc/article/details/68958593

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

决策树

本博文是《统计学习方法》第5章决策树的学习笔记，后面的Python代码来源于《机器学习实战》（代码中的例子是《统计学习方法》中的）

1 决策树模型

决策树就是一个if-the规则的集合，这个集合具有互斥和完备的性质：每一个实例都被一条路径或一条规则所覆盖，而且只被一条路径或一条规则所覆盖。
因此，决策树学习本质上就是从训练数据集中归纳出一组分类规则，主要包括：特征选择、决策树的生成、决策树的剪枝。下面将围绕这三个方面进行介绍。

1.1 特征选择

在决策树学习时，首先就是选取特征对数据集进行划分。考虑如下决策树学习：
假设给定训练数据集 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})$ 为一个样例， $n$ 为特征个数， $N$ 为样例数， $y_i\in \{1,2，\cdots,K\},i=1,2,\cdots,N$ 为类标签。
数据集有 $n$ 个特征，那么选取哪个特征进行划分呢？或者说，要利用所有特征对数据集进行划分，特征选择的顺序如何安排才是好的呢？这就是特征选择问题。常用的度量选取特征优劣的方法就是计算信息增益(如ID3算法)、信息增益比(如C4.5算法)。

信息增益

首先介绍熵(entropy)和条件熵(conditional entropy)的概念。
熵是信息论和概率统计中度量信息的一种方法，表示随机变量不确定性的度量。设 $X$ 是一个取有限个值得离散随机变量，其概率分布为 $P(X=x_i)=p_i,i=1,2,\cdots,n$ ，则 $X$ 的熵定义为

H (X) = - \sum i = 1 n p i log (p i)

$H(X)=-\sum_{i=1}^{n}p_i\log(p_i)$
熵只依赖于

X $X$ 的分布，与

X $X$ 的取值无关，所以也可以将

X $X$ 的熵记为

H(p) $H(p)$ ：

H (p) = - \sum i = 1 n p i log (p i)

$H(p)=-\sum_{i=1}^{n}p_i\log(p_i)$
而条件熵

H(Y|X) $H(Y|X)$ 则表示在已知随机变量

X $X$ 的条件下，随机变量

Y $Y$ 的不确定性，其定义为：

X $X$ 给定条件下

Y $Y$ 的条件概率分布的熵对

X $X$ 的数学期望

H (Y | X) = \sum i = 1 n p i H (Y | X = x i)

$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$
这里的

pi=P(X=xi),i=1,2,⋯,n $p_i=P(X=x_i),i=1,2,\cdots,n$ 。
当熵和条件熵中的概率由数据估计(如极大似然估计)得到时，所对应的熵和条件熵分别称为 经验熵(empirical entropy)和 经验条件熵(empirical conditional entropy)。而 信息增益表示得知特征

X $X$ 的信息而使得类

Y $Y$ 的信息的不确定性减少的程度。

信息增益 information gain：特征 $A$ 对训练数据集 $D$ 的信息增益 $g(D,A)$ 定义为集合 $D$ 的经验熵 $H(D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H(D|A)$ 之差，即
$g (D, A) = H (D) - H (D | A)$ $g(D,A)=H(D)-H(D|A)$

一般地，熵 $H(Y)$ 与条件熵 $H(Y|X)$ 之差称为互信息(mutual information)，决策树学习中的信息增益等价于训练数据集中类与特征的互信息。决策树学习就是利用信息增益准则选择特征的：对训练数据集(或子集) $D$ ，计算其每个特征的信息增益，并比它们的大小，选择信息增益最大的特征。
设训练数据集为 $D$ ， $|D|$ 为标本容量.设输出有 $K$ 个类 $C_k,k=1,2,\cdots,K$ ， $|C_k|$ 为属于类 $C_k$ 的样本个数， $\sum_{k=1}^{K}|C_k|=|D|$ . 特征 $A$ 有 $n$ 个不同的取值 $\{a_1,a_2,\cdots,a_n\}$ ，根据特征 $A$ 的取值将 $D$ 划分为 $n$ 个子集 $D_1,D_2,\cdots,D_n$ ， $|D_i|$ 为 $D_i$ 的样本个数， $\sum_{i=1}^n|D_i|=|D|$ . 记子集 $D_i$ 中属于类 $C_k$ 的样本的集合为 $D_{ik}$ ，即 $D_{ik}=D_i \cap C_k$ ， $|D_{ik}|$ 为 $D_{ik}$ 的样本个数。

信息增益算法
输入：训练数据集 $D$ 和特征 $A$ ；
输出：特征 $A$ 对训练数据集 $D$ 的信息增益 $g(D,A)$ .
(1)计算数据集 $D$ 的经验熵 $H(D)$
$H (D) = - \sum k = 1 K | C k | | D | log 2 | C k | | D |$ $H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}\log_2\frac{|C_k|}{|D|}$
(2)计算特征 $A$ 对数据集 $D$ 的经验条件熵 $H(D|A)$
$H (D | A) = \sum i = 1 n | D i | | D | H (D i) = - \sum i = 1 n | D i | | D | \sum k = 1 K | D i k | | D i | log 2 | D i k | | D i |$ $H(D|A)=\sum_{i=1}^{n}\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}\log_2\frac{|D_{ik}|}{|D_i|}$
(3)计算信息增益
$g (D, A) = H (D) - H (D | A)$ $g(D,A)=H(D)-H(D|A)$

信息增益比

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，可以使用信息增益比(information gain ratio)对这一问题进行校正。

信息增益比：特征 $A$ 对训练数据集的信息增益比 $g_R(D,A)$ 定义为信息增益 $g(D,A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的熵 $H_A(D)$ 之比，即

$g R (D, A) = g ( D , A ) H A ( D )$ $g_R(D,A)=\frac{g(D,A)}{H_A(D)}$

1.2 决策树生成

主要介绍两种经典的决策树生成算法：ID3和C4.5。

1.2.1 ID3算法

ID3算法核心是：在决策树各个结点上应用信息增益准则选择特征，递归地建立决策树。具体方法：从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归调用以上方法。

ID3算法
输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\epsilon$ ;
输出：决策树 $T$
(1)若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单结点树，并将类 $C_k$ 最为该结点的类标记，返回 $T$ ；
(2)若 $A=\varnothing$ ，则 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ；
(3)否则，按信息增益计算方法计算 $A$ 中特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ ;
(4)如果 $A_g$ 的信息增益小鱼阈值 $\epsilon$ ，则置 $T$ 为单结点树，并将 $D$ 中实例数最多的类 $C_k$ 作为该结点的类标记，返回 $T$ ；
(5)否则，对 $A_g$ 的每一可能值 $a_i$ ，依 $A_g=a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树 $T$ ，返回 $T$ ;
(6)对第 $i$ 个子结点，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集，递归调用(1)-(5)得到字数 $T_i$ ，返回 $T_i$ 。

1.2.2 C4.5算法

C4.5算法与ID3算法相似，只不过在生成的过程中，用信息增益比来选择特征。

1.3 决策树剪枝

如果不对生成的决策树进行剪枝操作，生成的决策树容易过拟合，其原因在于：学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化。
（剪枝操作的具体过程，后面再补充）

2 决策树算法的Python实现

这里实现的是ID3算法，且未带剪枝操作。参考来源：Machine Learning in Action.
实例来自于《统计学习方法》第5章决策树

# -*- coding: utf-8 -*-
'''
Decision Tree.
Reference: 
1.Machine Learning in Action.
2.Statistical Learning Methods,Li,Hang.
'''
from math import log
import operator
def calc_entropy(dataset):
    num=len(dataset)#number of samples.
    label_count={}
    for sample in dataset:
        current_label=sample[-1]
        if current_label not in label_count.keys():
            label_count[current_label]=0
        label_count[current_label]+=1
    entropy=0.0
    for key in label_count:
        p=float(label_count[key])/num
        entropy-=p*log(p,2)
    return entropy
def partition_dataset(dataset,axis,value):
    partitioned_dataset=[]
    for sample in dataset:
        if sample[axis]==value:
            reduced_feature=sample[:axis]#this two lines exclude feature sample[axis].
            reduced_feature.extend(sample[axis+1:])
            partitioned_dataset.append(reduced_feature)
    return partitioned_dataset

def choose_best_feature_to_partition(dataset):
    num_features=len(dataset[0])-1 #last one element is label.
    num_samples=len(dataset)
    base_entropy=calc_entropy(dataset)
    best_info_gain=0.0
    best_feature=-1
    for i in range(num_features):
        feature_value_list=[sample[i] for sample in dataset]
        feature_value_list=set(feature_value_list)
        current_entropy=0.0
        for value in feature_value_list:
            sub_dataset=partition_dataset(dataset,i,value)
            p=float(len(sub_dataset))/num_samples
            current_entropy+=p*calc_entropy(sub_dataset)
        info_gain=base_entropy-current_entropy
        if info_gain>best_info_gain:
            best_feature=i
            best_info_gain=info_gain
    return best_feature#,best_info_gain
def majority_vote(label_list):
    label_count={}
    for label in label_list:
        if label not in label_list.key():
            label_count[label]=0
        label_count[label]+=1
    sorted_label_count=sorted(label_count.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sorted_label_count[0][0]
def create_tree(dataset,labels):
    label_list=[sample[-1] for sample in dataset]
    if label_list.count(label_list[0])==len(label_list):
        return label_list[0]
    if len(dataset[0])==1:
        return majority_vote(label_list)
    best_feature=choose_best_feature_to_partition(dataset)
    best_feature_label=labels[best_feature]
    tree={best_feature_label:{}}
    del(label_list[best_feature])
    feature_value=[sample[best_feature] for sample in dataset]
    unique_feature_value=set(feature_value)
    for value in unique_feature_value:
        sub_labels=labels[:]
        tree[best_feature_label][value]=create_tree(partition_dataset(dataset,best_feature,value),sub_labels)
    return tree

def create_dataset():
    dataset=[['youth','no','no','ordinary','no'],['youth','no','no','good','no'],['youth','yes','no','good','yes'],['youth','yes','yes','ordinary','yes'],['youth','no','no','ordinary','no'],
             ['middle','no','no','ordinary','no'],['middle','no','no','good','no'],['middle','yes','yes','good','yes'],['middle','no','yes','very good','yes'],['middle','no','yes','very good','yes'],
             ['old','no','yes','very good','yes'],['old','no','yes','good','yes'],['old','yes','no','good','yes'],['old','yes','no','very good','yes'],['old','no','no','ordinary','no']]
    return dataset
dataset=create_dataset()
feature_attributes=['age','having job','own house','credit condition']

best_feature=choose_best_feature_to_partition(dataset)
my_tree=create_tree(dataset,feature_attributes)
print my_tree

yangsenzk

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法《决策树》

决策树本博文是《统计学习方法》第5章决策树的学习笔记，后面的Python代码来源于《机器学习实战》（代码中的例子是《统计学习方法》中的）1 决策树模型决策树就是一个if-the规则的集合，这个集合具有互斥和完备的性质：每一个实例都被一条路径或一条规则所覆盖，而且只被一条路径或一条规则所覆盖。因此，决策树学习本质上就是从训练数据集中归纳出一组分类规则，主要包括：特征选择、决策树的生成、决策树的剪枝
复制链接

扫一扫