决策树
决策树是常见且强大的分类器,简单地解释为,if-then判断规则组成的形如树状的预测模型。
我在这里总结了几种常见决策树模型(不做过多原理解释,只总结方法),ID3(多叉树),C4.5(多叉树),C5.0(多叉树),CART(二叉树),CHAID(多叉树),RandomForest(二叉树群)。其生成树的思想大同小异,区别在于属性选择指标和树的形式。
基础知识
几个基础概念需要了解,熵,信息增益,信息增益率,Gini指数等。
熵:
物理意义 - - 描述了物质的混乱程度。
数学定义 - - Entropy=−∑iPi∗lnPi
其中, Pi 表示 y=i 的样本的比例(概率)。
信息增益:
物理意义 - - 用于衡量属性F降低样本集合S混乱程度多少。
数学定义 - -
G(S,F)=Entropy(S)−∑j|Sj||S|∗Entr