机器学习-P4 决策树 / 分类树（书P33）

最新推荐文章于 2021-12-31 17:15:14 发布

壮壮不太胖^QwQ

最新推荐文章于 2021-12-31 17:15:14 发布

阅读量481

点赞数

分类专栏：机器学习机器学习实战（书）文章标签：决策树机器学习 python

本文链接：https://blog.csdn.net/weixin_46072771/article/details/105025916

版权

本文详细介绍了决策树的基本概念，包括其作为if-then规则集合的性质、特征选择的重要性以及如何通过香农熵衡量数据纯度。接着，文章通过Python代码实现了决策树的构建过程，包括计算信息增益、选择最佳切分列以及递归构建决策树。最后，文章展示了如何使用sklearn库绘制决策树，并给出了实际操作的例子。

摘要由CSDN通过智能技术生成

一，概述

1，什么是决策树

首先看一组图
决策树的本身就是一种树形结构，可以通过一些精心设计的问题，对数据进行分类
在这里插入图片描述
决策树（Decision Tree）是监督学习中的一种算法，并且是一种基本的分类与回归的方法。
决策树有两种：分类树 和回归树

需要了解的三个概念：
在这里插入图片描述
可以把决策树看作是一个 if-then 规则的集合：
— 由决策树的根节点到叶节点的每一条路径构建一条规则

2，特征选择

随着划分过程不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，也就是节点的纯度（purity）越来越高。
下边三个图表示纯度越来越低的过程：
在这里插入图片描述
度量不纯度的指标有很多种，比如：熵、增益率、基尼值数。
这里我们使用的是熵，也叫作香农熵。

3，香农熵及计算函数

在这里插入图片描述

二，代码实现

1，需要用到的库（pandas传送门）

import numpy as np
import pandas as pd

传送门：Pandas的教学

2，数据集

这里使用书上的数据集

def createDatas():
    rew_data = {
   
        'no surfacing':[1,1,1,0,0],
        'flippers':[1,1,0,1,1],
        'fish':['yes','yes','no','no','no']}
    dataSet = pd.DataFrame(rew_data)
    return dataSet

dataSet = createDatas()
dataSet

在这里插入图片描述

3，计算香农熵

输入：原始数据集
输出：熵

def calEnt(dataSet):
    n = dataSet.shape[0]
    iset = dataSet.iloc[:,-1].value_counts()
    p = iset / n
    ent = (-p * np.log2(p)).sum()
    return ent

计算一下看看
熵越高，信息的不纯度就越高。也就说明混合的数据就越多。

calEnt(dataSet)
>>>0.9709505944546686

4，信息增益

在这里插入图片描述

我们来计算一下 第0列 的信息增益

a = (3/5)*(-(2/3)*np.log2(2/3)-(

最低0.47元/天解锁文章

壮壮不太胖^QwQ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习-P4 决策树 / 分类树（书P33）

文章目录一，概述1，什么是决策树2，特征选择3，香农熵及计算函数二，代码实现1，需要用到的库（pandas传送门）2，数据集3，计算香农熵4，信息增益5，数据集最佳切分函数找出最佳切分列按照给定列切分数据集6，递归构建决策树ID3 算法编写代码构建决策树决策树的存储使用决策树执行分类预测7，使用sklearn中的包实现决策树的绘制需要使用的包数据的前处理构建决策树一，概述1，什么是决策树首先...
复制链接

扫一扫