3. 决策树

最新推荐文章于 2022-11-27 22:50:33 发布

哎呦-_-不错

最新推荐文章于 2022-11-27 22:50:33 发布

阅读量247

点赞数

分类专栏： # 机器学习理论与实战文章标签：决策树

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/112392868

版权

本文详细介绍了决策树中的关键概念，包括信息熵、条件熵和信息增益。接着讲解了ID3算法的原理和代码实现，以及C4.5和CART算法在决策树构建中的应用。此外，还讨论了决策树的剪枝过程和优劣，指出其在处理非线性数据和过拟合方面的挑战。

摘要由CSDN通过智能技术生成

文章目录

一、信息熵、条件熵、信息增益

1.信息熵

在这里插入图片描述

2.条件熵

在这里插入图片描述

3.信息增益

在这里插入图片描述

二、ID3算法及决策树

ID3算法只有树的生成，所以该算法生成的树容易产生过拟合。
在这里插入图片描述

ID3算法代码实现

# 数据使用统计特征方法上的贷款申请样本数据
import numpy as np
import operator

np.random.seed(0)


def loaddata():
    dataSet = [[0, 0, 0, 0, 'no'],
               [0, 0, 0, 1, 'no'],
               [0, 1, 0, 1, 'yes'],
               [0, 1, 1, 0, 'yes'],
               [0, 0, 0, 0, 'no'],
               [1, 0, 0, 0, 'no'],
               [1, 0, 0, 1, 'no'],
               [1, 1, 1, 1, 'yes'],
               [1, 0, 1, 2, 'yes'],
               [1, 0, 1, 2, 'yes'],
               [2, 0, 1, 2, 'yes'],
               [2, 0, 1, 1, 'yes'],
               [2, 1, 0, 1, 'yes'],
               [2, 1, 0, 2, 'yes'],
               [2, 0, 0, 0, 'no']]
    feature_name = ['age', 'job', 'house', 'credit']
    return dataSet, feature_name


# 定义计算数据集的熵的函数
def entropy(dataSet):
    # 数据量
    m = len(dataSet)
    # 标签不同类别的计数字典
    labelCounts = {
   }
    # 循环数据集
    for featVec in dataSet:
        currentLabel = featVec[-1]
        # 标签类别计数-如果字典中不存在则值为0，否则值加1
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    # 定义一个自变量来保存熵
    e = 0.0
    # 根据公式计算熵
    for key in labelCounts:
        prob = float(labelCounts[key]) / m
        e -= prob * np.log2(prob)
    return e

最低0.47元/天解锁文章

哎呦-_-不错

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
3. 决策树

文章目录一、信息熵、条件熵、信息增益1.信息熵2.条件熵3.信息增益二、ID3算法ID3算法代码实现一、信息熵、条件熵、信息增益1.信息熵2.条件熵3.信息增益二、ID3算法ID3算法只有树的生成，所以该算法生成的树容易产生过拟合。ID3算法代码实现在这里插入代码片...
复制链接

扫一扫

专栏目录