机器学习Task2基于决策树的分类预测

最新推荐文章于 2023-03-26 00:22:55 发布

戛戛猫

最新推荐文章于 2023-03-26 00:22:55 发布

阅读量222

点赞数

本文链接：https://blog.csdn.net/weixin_46221120/article/details/108176987

版权

决策树是一种常见的分类模型

1、信息熵函数
给定一个标定的数据集X计算数据集中信息量的大小
H(X)=-∑（i=1→n)p(xi)log₂p(xi)
2、决策树执行流程
在这里插入图片描述
3、Demo实践

4、基于且数据集的决策树实战
在实践的最开始，我们首先需要导入一些基础的函数库包括：numpy （Python进行科学计算的基础软件包），pandas（pandas是一种快速，强大，灵活且易于使用的开源数据分析和处理工具），matplotlib和seaborn绘图。
本次我们选择企鹅数据（palmerpenguins）进行方法的尝试训练，该数据集一共包含8个变量，其中7个特征变量，1个目标分类变量。共有150个样本，目标变量为企鹅的类别其都属于企鹅类的三个亚属，分别是(Adélie, Chinstrap and Gentoo)。包含的三种种企鹅的七个特征，分别是所在岛屿，嘴巴长度，嘴巴深度，脚蹼长度，身体体积，性别以及年龄。
在这里插入图片描述
TIPS：
1、决策树构建的伪代码

决策树的构建过程是一个递归过程。函数存在三种返回状态：（1）当前节点包含的样本全部属于同一类别，无需继续划分；（2）当前属性集为空或者所有样本在某个属性上的取值相同，无法继续划分；（3）当前节点包含的样本集合为空，无法划分。
2、决策树的关键在于line6.从 𝐴 中选择最优划分属性 𝑎∗ ，一般我们希望决策树每次划分节点中包含的样本尽量属于同一类别，也就是节点的“纯度”更高。
3、信息增益：
信息熵是一种衡量数据混乱程度的指标，信息熵越小，则数据的“纯度”越高
在这里插入图片描述

4、基尼指数

戛戛猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习Task2基于决策树的分类预测

决策树是一种常见的分类模型1、信息熵函数给定一个标定的数据集X计算数据集中信息量的大小H(X)=-∑（i=1→n)p(xi)log₂p(xi)2、决策树执行流程3、Demo实践4、基于且数据集的决策树实战在实践的最开始，我们首先需要导入一些基础的函数库包括：numpy （Python进行科学计算的基础软件包），pandas（pandas是一种快速，强大，灵活且易于使用的开源数据分析和处理工具），matplotlib和seaborn绘图。本次我们选择企鹅数据（palmerpenguin
复制链接

扫一扫