决策树
决策树是一种基本的分类与回归方法,主要包括三个步骤:特征选择、决策树生成以及决策树修剪。其主要特点包括模型具有可读性、分类速度快。
决策树模型与学习
决策树模型
- 定义
分类决策树模型是一种描述对实例进行分类的树形结构。由结点和有向边组成,结点又分为内节点和叶界点:内节点代表一个特征或属性,叶界点代表一个类。
决策树与条件概率分布
- 将特征空间划分为互不相交的单元或区域,并在每一个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的每一条路径对应于划分中的一个单元。
- 决策树所代表的条件概率分布由各个单元给定条件下类的条件概率分布组成。
决策树学习
- 决策树学习的本质:从训练集中归纳出一组分类规则
- 决策树学习的目标:需要一个与训练数据矛盾较小的决策树,同时具有很好地泛化能力。
- 决策树的损失函数通常为正则化的极大似然估计。
特征选择
特征选择问题
特征选择在于选择对训练集具有分类能力的特征,通常使用的标准包括信息增益、信息增益比等。
信息增益
- 信息熵:度量样本集合纯度最常用的一种指标。
假定样本集合 D D D中第 k k k类样本所占的比例为 p k ( k = 1 , 2 , . . . , ∣ y ∣ ) p_k \left( k=1,2,...,\left| y \right| \right) pk(k=1,2,...,∣y∣),则 D D D的信息熵定义为:
E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k l o g 2 p k Ent\left( D \right)=-\sum_{k=1}^{|y|} p_klog_2p_k Ent(D)=−k=1∑∣y∣pklog2pk
E n t ( D ) Ent(D) Ent(D)的值越小,则 D D D的纯度越高。 - 信息增益
假定离散属性 a a a有 V V V个可能取值 a 1 , a 2 , . . . , a V {a^1,a^2,...,a^V} a1,a2,...,aV,第 v v v个分支节点包含了 D D D中所有在属性 a a a上取值为 a v a^v av的样本,记为 D v D^v Dv,赋值权重为 ∣ D v ∣ / ∣ D ∣ |D^v|/|D| ∣Dv∣/∣D∣,信息增益则为:
G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)