决策树学习笔记

本文详细介绍了决策树的概念,包括特征选择的依据(如熵、基尼系数、信息增益等),何时停止分裂的条件,以及决策树的剪枝方法,特别讨论了CART算法在生成和剪枝中的应用。此外,还探讨了决策树的性质,如抗噪声和冗余特征的能力。
摘要由CSDN通过智能技术生成

一、概念

在树的结点处按照属性的不同条件对样本进行划分。

二、决策树的生成

1. 特征的选择:局部最优

选择最优属性的最优划分。

度量结点的不确定程度:熵、基尼系数、分类错误率。

结点越不纯,结点处类分布越平衡,值越大。

E n t r o p y ( t ) = − ∑ k = 0 K p ( k ∣ t ) l o g ( p ( k ∣ t ) ) Entropy(t) = -\sum_{k=0}^K p(k|t)log(p(k|t)) Entropy(t)=k=0Kp(kt)log(p(kt))

G i n i ( t ) = 1 − ∑ k = 0 K [ p ( k ∣ t ) ] 2 Gini(t) = 1-\sum_{k=0}^K[p(k|t)]^2 Gini(t)=1k=0K[p(kt)]2

C l a s s i f i c a t i o n E r r o r = 1 − m a x [ p ( k ∣ t ) ] Classification Error = 1 - max[p(k|t)] ClassificationError=1max[p(kt)]

比较分裂前后不纯程度的差别

信息增益(ID3):分裂前后结点熵的差

Δ = I ( p a r e n t ) − I ( c h i l d r e n ) \Delta = I(parent) - I(children) Δ=I(parent)I(c

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值