数据挖掘学习——决策树分类算法理论(包含Iris实战)

目录

1.决策树分类算法概述及相关公式

(1)基本思路

(2)熵公式

 (3)基尼(Gini)系数公式

 2.ID3算法

3.C4.5算法

4.CART算法

5.各类决策树分类算法比较

6.过拟合与决策树剪枝

(1)过拟合(overfitting)

(2)决策树剪枝方法

1.先剪枝:

2.后剪枝

7.决策树实战(Iris数据集的训练)

(1)Iris数据集:

(2)实战开始

 8.iris数据集实战完整代码


1.决策树分类算法概述及相关公式

(1)基本思路

决策树(decision tree)分类算法是一种逼近离散函数值的方法,是一种典型的分类算法。首先对已有分类好的数据进行处理,归纳出其中的规则并生成决策树;然后根据生成的决策树对新输入数据进行分析并判断属于哪一类别。

(2)熵公式

熵公式:

条件熵公式:

 信息增益公式:

 (3)基尼(Gini)系数公式

 2.ID3算法

具体步骤:

(1)从根节点开始,对节点计算所有可能特征的信息增益,将信息增益最大的特征作为该节点。

(2)由该特征的取值建立子节点,再对子节点重复调用以上方法并建立下一个子节点。

(3)重复以上两步,直到没有特征可以选择为止。

3.C4.5算法

以信息增益作为划分训练数据集的特征,存在偏向于选择取值比较多的特征的问题(是对ID3算法的优化)

具体步骤:

(1)从根节点开始,对节点计算所有可能特征的信息增益。

(2)结合各个特征的熵,求出所有可能特征的信息增益比。

(3)比较各信息增益比,选择信息增益比最大的作为根节点。

(4)由该特征的取值建立子节点。

(5)重复上述步骤,直至特征选择完毕为止。

4.CART算法

CART算法假设决策树是二叉树,内部节点特征的取值为0(否)或1(是),通常左取值为1,右取值为0。

具体步骤:

(1)在训练数据集所在的样本空间,递归地将每一个特征划分为两个区域

(2ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值