//现在决策树的应用,主流是放在集成学习里面,多棵决策树构成森林模型
1.基本流程
顾名思义,决策树是基于树结构来进行决策的.决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的"分而治之" (divide-and-conquer) 策略
2.划分选择
决策树学习的关键是如何选择最优划分属性一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的"纯度" (purity) 越来越高. (就是卡的准呗!!!)
信息熵
自信息
随机变量X的每个取值x都有一个p(x)
"信息熵" (information entropy) 是度量样本集合纯度最常用的一种指标.是子信息的期望。
ID3决策树
C4.5决策树
CART决策树