目录
1.决策树分类算法概述及相关公式
(1)基本思路
决策树(decision tree)分类算法是一种逼近离散函数值的方法,是一种典型的分类算法。首先对已有分类好的数据进行处理,归纳出其中的规则并生成决策树;然后根据生成的决策树对新输入数据进行分析并判断属于哪一类别。
(2)熵公式
熵公式:
条件熵公式:
信息增益公式:
(3)基尼(Gini)系数公式
2.ID3算法
具体步骤:
(1)从根节点开始,对节点计算所有可能特征的信息增益,将信息增益最大的特征作为该节点。
(2)由该特征的取值建立子节点,再对子节点重复调用以上方法并建立下一个子节点。
(3)重复以上两步,直到没有特征可以选择为止。
3.C4.5算法
以信息增益作为划分训练数据集的特征,存在偏向于选择取值比较多的特征的问题(是对ID3算法的优化)
具体步骤:
(1)从根节点开始,对节点计算所有可能特征的信息增益。
(2)结合各个特征的熵,求出所有可能特征的信息增益比。
(3)比较各信息增益比,选择信息增益比最大的作为根节点。
(4)由该特征的取值建立子节点。
(5)重复上述步骤,直至特征选择完毕为止。
4.CART算法
CART算法假设决策树是二叉树,内部节点特征的取值为0(否)或1(是),通常左取值为1,右取值为0。
具体步骤:
(1)在训练数据集所在的样本空间,递归地将每一个特征划分为两个区域
(2ÿ