统计学习方法——决策树(一)

本文介绍了决策树的基础知识,包括决策树模型的定义、条件概率分布、决策树学习过程。特征选择部分讨论了信息增益、信息增益率和基尼指数。接着详细讲述了ID3生成算法,以及如何通过剪枝防止过拟合。最后提到了预剪枝和后剪枝策略。
摘要由CSDN通过智能技术生成

决策树

决策树是一种基本的分类与回归方法,主要包括三个步骤:特征选择、决策树生成以及决策树修剪。其主要特点包括模型具有可读性、分类速度快

决策树模型与学习

决策树模型
  • 定义
    分类决策树模型是一种描述对实例进行分类的树形结构。由结点和有向边组成,结点又分为内节点和叶界点:内节点代表一个特征或属性,叶界点代表一个类
决策树与条件概率分布
  • 将特征空间划分为互不相交的单元或区域,并在每一个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的每一条路径对应于划分中的一个单元。
  • 决策树所代表的条件概率分布由各个单元给定条件下类的条件概率分布组成。
决策树学习
  • 决策树学习的本质:从训练集中归纳出一组分类规则
  • 决策树学习的目标:需要一个与训练数据矛盾较小的决策树,同时具有很好地泛化能力。
  • 决策树的损失函数通常为正则化的极大似然估计

特征选择

特征选择问题

特征选择在于选择对训练集具有分类能力的特征,通常使用的标准包括信息增益信息增益比等。

信息增益
  • 信息熵:度量样本集合纯度最常用的一种指标。
    假定样本集合 D D D中第 k k k类样本所占的比例为 p k ( k = 1 , 2 , . . . , ∣ y ∣ ) p_k \left( k=1,2,...,\left| y \right| \right) pk(k=1,2,...,y),则 D D D的信息熵定义为:
    E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k l o g 2 p k Ent\left( D \right)=-\sum_{k=1}^{|y|} p_klog_2p_k Ent(D)=k=1ypklog2pk
    E n t ( D ) Ent(D) Ent(D)的值越小,则 D D D的纯度越高。
  • 信息增益
    假定离散属性 a a a V V V个可能取值 a 1 , a 2 , . . . , a V {a^1,a^2,...,a^V} a1,a2,...,aV,第 v v v个分支节点包含了 D D D中所有在属性 a a a上取值为 a v a^v av的样本,记为 D v D^v Dv,赋值权重为 ∣ D v ∣ / ∣ D ∣ |D^v|/|D| Dv/D,信息增益则为:
    G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值