机器学习：构建随机森林

最新推荐文章于 2024-07-27 12:20:46 发布

Wenretium

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量1.3k

点赞数

文章标签：机器学习 python 决策树

本文链接：https://blog.csdn.net/weixin_45725902/article/details/112688720

版权

机器学习：构建随机森林

作者： Wenretium

任务介绍： 用随机森林训练一个 $T = 3$ 的分类器集成，要求：3个个体学习器对应的决策树，每个决策树最大的划分层次为2层，每个划分节点（根节点和分支节点）对应属性随机选择的控制参数 $k=log_{2}d$ ( $d$ 为当前划分节点对应属性集合的大小)、3个决策树分别采用信息增益、增益率和基尼系数来选择最优划分属性。

注意： 文章修改自本人《机器学习》课程作业，全部为本人原创，仅供参考。

完整代码戳这里： 随机森林代码

数据集：
周志华《机器学习》中西瓜数据集 2.0

共有6个属性：

色泽：青绿，乌黑，浅白
根蒂：蜷缩，稍蜷，硬挺
敲声：浊响，沉闷，清脆
纹理：清晰，稍糊，模糊
脐部：凹陷，稍凹，平坦
触感：硬滑，软粘

一、自助抽样，生成3个训练数据集

使用sklearn的resample函数进行自助抽样。

from sklearn.utils import resample
data = list(range(1,18))
print('data', data)
data1 = resample(data, n_samples=17)
print('data1', data1)
data2= resample(data, n_samples=17)
print('data2', data2)
data3 = resample(data, n_samples=17)
print('data3', data3)

1. 数据集1

data1 = [10, 6, 14, 16, 4, 6, 11, 4, 15, 4, 4, 2, 2, 13, 4, 9, 14]

2. 数据集2

data2 = [3, 4, 13, 14, 9, 7, 14, 9, 4, 3, 2, 7, 5, 13, 12, 2, 1]

3. 数据集3

data3 = [6, 5, 16, 7, 3, 14, 16, 13, 3, 7, 1, 15, 12, 6, 16, 3, 14]

二、分别训练3个决策树

其中，分别采用信息增益、增益率和基尼系数来选择最优划分属性。

1. 信息增益

1.1 原理

信息熵

是度量样本集合纯度最常用的一种指标，假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k (k=1,2⋯,|Y|)$ ，则 $D$ 的信息熵定义为

$Ent(D)=-\sum_{k=1}^{|y|}{p_k log_2 p_k}$
数据集的信息熵

训练数据集 $D$ 中有 $K$ 个类 $C_k,k=1,2,⋯,K$ ， $∣ D ∣$ 为总样本个数， $C_k |$ 为属于第 $k$ 类的样本个数，有 $D|=∑_{k=1}^{K}|C_k |$ 。

当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k=\frac{|C_k |}{|D|}, (k=1,2⋯,K)$ ，则 $D$ 的信息熵定义为

$Ent(D)=-∑_{k=1}^K\frac{|C_k |}{|D|} log_{2} \frac{|C_k |}{|D|}$
信息增益

$Gain(D,a)=Ent(D)-∑_{v=1}^{V}\frac{|D^v |}{|D|} Ent(D^v )$

信息增益越大，划分效果越好

1.2 计算

1.2.1 第一轮划分

$D=\left \{2, 2, 4, 4, 4, 4, 4, 6, 6, 9, 10, 11, 13, 14, 14, 15, 16 \right \}$

正例	正例数	反例	反例数
2, 2, 4, 4, 4, 4, 4, 6, 6	9	9, 10, 11, 13, 14, 14, 15, 16	8

$Ent(D)=-(\frac{9}{17} log_{2} \frac{9}{17} + \frac{8}{17} log_{2} \frac{8}{17})=0.9975$

以色泽为例，计算信息增益

青绿	乌黑	浅白
4, 4, 4, 4, 4, 6, 6, 10, 13(9)	2, 2, 9, 15(4)	11, 14, 14, 16(4)

$Ent(D^{1})=-(\frac{7}{9} log_{2} \frac{7}{9} + \frac{2}{9} log_{2} \frac{2}{9})=0.7642$

$Ent(D^{2})=-(\frac{2}{4} log_{2} \frac{2}{4} + \frac{2}{4} log_{2} \frac{2}{4})=1$

$Ent(D^{3})=-(\frac{0}{4} log_{2} \frac{0}{4} + \frac{4}{4} log_{2} \frac{4}{4})=0$

$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ Gain(D,色泽) &= …$

在其中随机选出触感、根蒂、纹理三个属性，同理，有

属性	触感	根蒂	纹理
信息增益	0.0008	0.3863	0.5549

所以，选择纹理作为划分依据

1.2.2 第二轮划分

$D^{1}=\left \{2, 2, 4, 4, 4, 4, 4, 6, 6, 10, 15 \right \}$

$D^{2}=\left \{9, 13, 14, 14 \right \}$

$D^{3}=\left \{11, 16 \right \}$

在 $D^{1}$ 中

正例	正例数	反例	反例数
2, 2, 4, 4, 4, 4, 4, 6, 6	9	10, 15	2

选出触感、根蒂两个属性，分别计算信息增益

属性	触感	根蒂
信息增益	0.3204	0.4336

所以，选择根蒂作为划分依据，取样本多数为标记类型

属性	蜷缩	稍蜷	硬挺
叶结点标记	是	否	否

在 $D^{2}$ 中

全为反例，标记为否类叶结点
和 $D^{3}$ 中

全为反例，标记为否类叶结点

1.3 生成的决策树

2. 增益率

2.1 原理

离散属性 $a$ 有 $V$ 个可能的取值 $\left \{a^1,a^2,⋯,a^V \right \}$ ，用 $a$ 来进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$ 。则可计算出用属性 $a$ 对样本集 $D$ 进行划分所获得的“增益率”：

$Gain_{-}ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$

$IV(a)=-∑_{v=1}^V \frac{|D^v |}{|D|} log_2 \frac{|D^v |}{|D|}$

增益率越大，划分效果越好

2.2 计算

2.2.1 第一轮划分

$D=\left \{1, 2, 2, 3, 3, 4, 4, 5, 7, 7, 9, 9, 12, 13, 13, 14, 14 \right \}$

正例	正例数	反例	反例数
1, 2, 2, 3, 3, 4, 4, 5, 7, 7	10	9, 9, 12, 13, 13, 14, 14	7

选择脐部、纹理、触感三个属性，分别计算增益率

以脐部为例

凹陷	稍凹	平坦
1, 2, 2, 3, 3, 4, 4, 5, 13, 13, 14, 14(12)	7, 7, 9, 9(4)	12(1)

$IV(脐部)=-(\frac{12}{17} \times log_2\frac{12}{17} + \frac{4}{17} \times log_2\frac{4}{17} + \frac{1}{17} \times log_2\frac{1}{17})=1.0863$

$Gain(D,脐部)=0.9774-(\frac{12}{17} \times 0.9183+\frac{4}{17} \times 1+\frac{1}{17} \times 0) =0.0939$

$Gain_{-}ratio(D,脐部)=\frac{Gain(D,脐部)}{IV(脐部)}= 0.0865$

同理，得到

属性	脐部	纹理	触感
增益率	0.0865	0.4713	0.006

所以，选择纹理作为划分依据

2.2.2 第二轮划分

$D^{1}=\left \{1, 2, 2, 3, 3, 4, 4, 5 \right \}$

$D^{2}=\left \{7, 7, 9, 9, 13, 13, 14, 14 \right \}$

$D^{3}=\left \{12 \right \}$

在 $D^{1}$ 中

全为正例，标记为是类叶结点
在 $D^{2}$ 中

选择脐部、触感两个属性，分别计算增益率

属性	脐部	触感
增益率	0.3113	1.000

所以，选择触感作为划分依据，取样本多数为标记类型

属性	硬滑	软粘
叶结点标记	否	是

在 $D^{3}$ 中

全为反例，标记为否类叶结点

2.3 生成的决策树

3. 基尼系数

3.1 原理

基尼值

假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k (k=1,2⋯,K)$ ，则 $D$ 的基尼值定义为

$Gini(D)=1-∑_{k=1}^Kp_k^2$
数据集的基尼值

$Gini(D)=1-∑_{k=1}^K(\frac{|C_k |}{|D|} )^2$
基尼系数

$Gini_{-}index(D,a)=∑_{v=1}^V\frac{|D^v |}{|D|} Gini(D^v )$

基尼系数越小，划分效果越好

3.2 计算

3.2.1 第一轮划分

$D=\left \{1, 3, 3, 3, 5, 6, 6, 7, 7, 12, 13, 14, 14, 15, 16, 16, 16 \right \}$

正例	正例数	反例	反例数
1, 2, 2, 3, 3, 4, 4, 5, 7, 7	9	12, 13, 14, 14, 15, 16, 16, 16	7

选择触感、脐部、敲声三个属性，分别计算基尼系数

以触感为例

硬滑	软粘
1, 3, 3, 3, 5, 13, 14, 14, 16, 16, 16(11)	6, 6, 7, 7, 12, 15(6)

$Gini_{-}index(D,触感)=\frac{11}{17} \times (1-(\frac{5}{11})^{2}-(\frac{6}{11})^{2}) + \frac{6}{17} \times (1-(\frac{4}{6})^{2}-(\frac{2}{6})^{2}) =0.4777$

同理，得到

属性	触感	脐部	敲声
基尼系数	0.4777	0.3147	0.4235

所以，选择脐部作为划分依据

3.2.2 第二轮划分

$D^{1}=\left \{1, 3, 3, 3, 5, 13, 14, 14 \right \}$

$稍凹D^{2}=\left \{6, 6, 7, 7, 15 \right \}$

$D^{3}=\left \{12, 16, 16, 16 \right \}$

在 $D^{1}$ 中

选择触感、敲声两个属性，分别计算增益率

属性触感敲声
增益率 0.4688 0.2083
所以，选择敲声作为划分依据，取样本多数为标记类型

属性	触感	敲声
增益率	0.4688	0.2083

属性	浊响	沉闷	清脆
叶结点标记	是	否	是

在 $D^{2}$ 中

选择敲声、触感两个属性，分别计算增益率

属性	敲声	触感
增益率	0.3200	0.3200

所以，选择敲声作为划分依据，取样本多数为标记类型

属性	浊响	沉闷	清脆
叶结点标记	是	是	是

在 $D^{3}$ 中

全为反例，标记为否类叶结点

3.3 生成的决策树

三、代码实现

1. 相关函数构造

# 计算信息熵
def Ent(D):
    pos, neg = cal_pos_neg(D)
    if pos != 0 and neg != 0:
        return -(pos/len(D)*math.log(pos/len(D), 2)+neg/len(D)*math.log(neg/len(D), 2))
    elif pos == 0 and neg != 0:
        return -(0+neg/len(D)*math.log(neg/len(D), 2))
    elif pos != 0 and neg == 0:
        return -(pos/len(D)*math.log(pos/len(D), 2) + 0)
    else:
        return 0
    
# 统计正反例数量
def cal_pos_neg(D):
    pos = 0
    neg = 0
    for i in D:
        if i['好瓜'] == '是':
            pos += 1
        else:
            neg += 1
    return pos, neg

# 根据属性及对应的取值划分数据集 D
def split_att(D, att):
    att_value = att_value_list[att]
    if len(att_value) == 3:
        D1 = []
        D2 = []
        D3 = []
        for melon in D:
            if melon[att] == att_value[0]:
                D1.append(melon)
            elif melon[att] == att_value[1]:
                D2.append(melon)
            else:
                D3.append(melon)
        return D1, D2, D3
    elif len(att_value) == 2:
        D1 = []
        D2 = []
        for melon in D:
            if melon[att] == att_value[0]:
                D1.append(melon)
            else:
                D2.append(melon)
        return D1, D2
    
# 计算信息增益
def Gain(D, att):
    D_spilt = split_att(D, att)
    sum = 0
    for d in D_spilt:
        sum += len(d)/len(D)*Ent(d)
    return Ent(D)-sum

# 计算增益率
def Gain_ratio(D, att):
    D_split = split_att(D, att)
    IV_a = 0
    D_l = len(D)
    for d in D_split:
        if len(d) == 0:
            IV_a += 0
        else:
            IV_a += -len(d)/D_l*math.log(len(d)/D_l, 2)
    if IV_a == 0:  # 取为无穷接近于0的数：1e-10
        IV_a = 1e-10
    return Gain(D, att)/IV_a

# 计算基尼值
def Gini(D):
    pos, neg = cal_pos_neg(D)
    D_l = len(D)
    if D_l != 0:
        return 1-(pos/D_l)**2-(neg/D_l)**2
    else:
        return 1
    
# 计算基尼系数
def Gini_index(D, att):
    D_split = split_att(D, att)
    D_l = len(D)
    Gini_index_a = 0
    for d in D_split:
        Gini_index_a += len(d)/D_l*Gini(d)
    return Gini_index_a

# 检查 D 内元素是否属于一个类别
def check_type(D):
    pos, neg = cal_pos_neg(D)
    if pos*neg == 0:  # 其中一个为 0
        return True
    else:
         return False

2. 决策树算法

# 决策树算法
def Decision_Tree(data, att_list, layer_num, score_function):
    # 控制属性选择范围
    k = int(math.log(len(att_list), 2))+1  # 向上取整
    # print(att_list,k)
    att_list = random.sample(att_list, k)  # 不放回抽样 k 个
    # 特殊情况，结束递归
    # 决策树已达到规定层数
    if layer_num >= 2:
        tpos, tneg = cal_pos_neg(data)
        print('-标记为', end=' ')
        if tpos > tneg:
            print('是', end=' ')
        else:
            print('否', end=' ')
        print('类叶结点')
        return
    # print(att_list)
    # 集合中元素全为同一类型，不用继续划分
    if check_type(data):
        print('-标记为', data[0]['好瓜'], '类叶结点')
        return
    # 用来划分的属性集为空
    elif att_list == []:
        tpos, tneg = cal_pos_neg(data)
        print('-标记为',end=' ')
        if tpos>tneg:
            print('是', end=' ')
        else:
            print('否', end=' ')
        print('类叶结点')
        return

    # 选出最优划分属性
    # 对每个属性逐个计算
    score_list = {}
    for att in att_list:
        score_list[att] = score_function(data, att)
    print('---score---')
    for i in score_list:
        print(i, round(score_list[i], 4))
    # 选出信息增益最大者
    if score_function == Gini_index:
        chosen_att = min(score_list, key=score_list.get)
    else:
        chosen_att = max(score_list, key=score_list.get)

    print('第', layer_num, '层, 选取', chosen_att, '作为划分依据')
    # 对子数据集递归划分
    for i, melon_data_pre in enumerate(split_att(data, chosen_att)):
        print('进入值',att_value_list[chosen_att][i])
        if melon_data_pre == []:
            # print(melon_data_pre)
            print('标记为', data[0]['好瓜'], '类叶结点')
        else:
            # print(layer_num+1, melon_data_pre)
            att_list_c = att_list.copy()
            att_list_c.remove(chosen_att)
            Decision_Tree(melon_data_pre, att_list_c, layer_num+1, score_function)
        print('----------返回父节点')

3. 输入数据集

melon_data = [{'色泽':'青绿', '根蒂':'蜷缩','敲声':'浊响','纹理':'清晰','脐部':'凹陷','触感':'硬滑','好瓜':'是'},
        {'色泽':'乌黑', '根蒂':'蜷缩','敲声':'沉闷','纹理':'清晰','脐部':'凹陷','触感':'硬滑','好瓜':'是'},
        {'色泽':'乌黑', '根蒂':'蜷缩','敲声':'浊响','纹理':'清晰','脐部':'凹陷','触感':'硬滑','好瓜':'是'},
        {'色泽':'青绿', '根蒂':'蜷缩','敲声':'沉闷','纹理':'清晰','脐部':'凹陷','触感':'硬滑','好瓜':'是'},
        {'色泽':'浅白', '根蒂':'蜷缩','敲声':'浊响','纹理':'清晰','脐部':'凹陷','触感':'硬滑','好瓜':'是'},
        {'色泽':'青绿', '根蒂':'稍蜷','敲声':'浊响','纹理':'清晰','脐部':'稍凹','触感':'软粘','好瓜':'是'},
        {'色泽':'乌黑', '根蒂':'稍蜷','敲声':'浊响','纹理':'稍糊','脐部':'稍凹','触感':'软粘','好瓜':'是'},
        {'色泽':'乌黑', '根蒂':'稍蜷','敲声':'浊响','纹理':'清晰','脐部':'稍凹','触感':'硬滑','好瓜':'是'},
        {'色泽':'乌黑', '根蒂':'稍蜷','敲声':'沉闷','纹理':'稍糊','脐部':'稍凹','触感':'硬滑','好瓜':'否'},
        {'色泽':'青绿', '根蒂':'硬挺','敲声':'清脆','纹理':'清晰','脐部':'平坦','触感':'软粘','好瓜':'否'},
        {'色泽':'浅白', '根蒂':'硬挺','敲声':'清脆','纹理':'模糊','脐部':'平坦','触感':'硬滑','好瓜':'否'},
        {'色泽':'浅白', '根蒂':'蜷缩','敲声':'浊响','纹理':'模糊','脐部':'平坦','触感':'软粘','好瓜':'否'},
        {'色泽':'青绿', '根蒂':'稍蜷','敲声':'浊响','纹理':'稍糊','脐部':'凹陷','触感':'硬滑','好瓜':'否'},
        {'色泽':'浅白', '根蒂':'稍蜷','敲声':'沉闷','纹理':'稍糊','脐部':'凹陷','触感':'硬滑','好瓜':'否'},
        {'色泽':'乌黑', '根蒂':'稍蜷','敲声':'浊响','纹理':'清晰','脐部':'稍凹','触感':'软粘','好瓜':'否'},
        {'色泽':'浅白', '根蒂':'蜷缩','敲声':'浊响','纹理':'模糊','脐部':'平坦','触感':'硬滑','好瓜':'否'},
        {'色泽':'青绿', '根蒂':'蜷缩','敲声':'沉闷','纹理':'稍糊','脐部':'稍凹','触感':'硬滑','好瓜':'否'}]
att_list = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感']
att_value_list = {'色泽':['青绿','乌黑','浅白'],
            '根蒂':['蜷缩','稍蜷','硬挺'],
            '敲声':['浊响','沉闷','清脆'],
            '纹理':['清晰','稍糊','模糊'],
            '脐部':['凹陷','稍凹','平坦'],
            '触感':['硬滑','软粘']}

4. 分别用三种方法构造决策树

4.1 信息增益

for i in data1:
    melon_data_pre.append(melon_data[i-1])

Decision_Tree(melon_data_pre, att_list, 0, Gain)

4.2 增益率

for i in data2:
    melon_data_pre.append(melon_data[i-1])
    
Decision_Tree(melon_data_pre, att_list, 0, Gain_ratio)

4.3 基尼指数

for i in data3:
    melon_data_pre.append(melon_data[i-1])

Decision_Tree(melon_data_pre, att_list, 0, Gini_index)

5. 输出结果

5.1 信息增益

5.2 增益率

5.3 基尼指数

四、T=3 的分类器集成

结果如下：

Wenretium

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
机器学习：构建随机森林

用三种划分方式构建随机森林。文章修改自本人《机器学习》课程作业，全部为本人原创，仅供参考。欢迎一起学习探讨٩( ‘ω’ )و
复制链接

扫一扫

机器学习：构建随机森林

机器学习：构建随机森林

目录

一、自助抽样，生成3个训练数据集

1. 数据集1

2. 数据集2

3. 数据集3

二、分别训练3个决策树

1. 信息增益

1.1 原理

1.2 计算

1.2.1 第一轮划分

1.2.2 第二轮划分

1.3 生成的决策树

2. 增益率

2.1 原理

2.2 计算

2.2.1 第一轮划分

2.2.2 第二轮划分

2.3 生成的决策树

3. 基尼系数

3.1 原理

3.2 计算

3.2.1 第一轮划分

3.2.2 第二轮划分

3.3 生成的决策树

三、代码实现

1. 相关函数构造

2. 决策树算法

3. 输入数据集

4. 分别用三种方法构造决策树

4.1 信息增益

4.2 增益率

4.3 基尼指数

5. 输出结果

5.1 信息增益

5.2 增益率

5.3 基尼指数

四、T=3 的分类器集成