决策树是一种基本的分类与回归方法,学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝
条件熵
H(X,Y)-H(X)
信息增益和条件熵
决策树容易发生过拟合,对于未测试数据的泛化能力较弱,剪枝和随机森林:极小化决策树整体的损失函数
剪枝:父结点变成新的叶结点
随机森林:
信息增益
使用信息增益选择特征的算法称为C3算法
信息增益比
特征A对训练数据集D的信息增益比gR(D, A)定义为其信息增益g(D, A)与训练集D的经验熵之比
基尼指数
基尼指数是CART分类树用来选择最优特征的算法,同时决定了该特征的最优二值切分点。
一个特征的信息增益/基尼系数越大,表明特征对样本的熵减少的能力更强,这个特征使得数据由不确定性变成确定性的能力越强。
经典算法
gain(outlook)最大(即outlook在第一步使得系统的信息熵下降得最快)
ID3算法:信息增益(传统算法)
C4.5算法:信息增益率
CART算法:Gini系数