决策树系列
之前啃西瓜书,发现理论太深,因此换了个角度作知识总结。
决策树是什么?
决策树是采用树形结构用于推理判断最后实现分类的算法。
信息熵是什么?
信息熵是度量样本集合纯度最常见的一种指标,
E
n
t
(
D
)
=
−
∑
k
=
1
∣
y
∣
p
k
log
2
p
k
Ent(D)=-\sum_{k=1}^{|y|}p_k\log_2{p_k}
Ent(D)=−∑k=1∣y∣pklog2pk 即样本D的信息熵,
p
k
p_k
pk是样本所占比例,结论是:信息熵值越小,纯度越高
基尼指数是什么?
基尼指数反映了从数据集D中随机抽取两个样本,器类别标志不一致的概率,其值越小,数据集D的纯度越高
为什么要有剪枝处理?
因为为了为了防止模型过拟合(即学的太好了),因此对于训练好的树模型需要剪枝处理,一般分为”预剪枝“和”后剪枝“,顾名思义,就是剪枝的顺序问题。”预剪枝“即决策树生成过程中,去除那些不可提升泛化能力的节点直接标记为叶节点,就是不再向下细分。”后剪枝“即树生成过后,自底向上对非叶节点进行考察,进一步处理。
多变量决策树
多变量决策树就是判断的标准不在是单一属性,是属性的线性组合构成,最一般的单变量决策树中判断的标准就是单一属性。
先进行简单理解与记录,后面补上实践部分~