1.决策树
决策树是一种简单高效并具有强解释性的模型,是基本的分类与回归方法,广泛用于数据分析。
决策树与逻辑回归
决策树的树形模型更接近人的思维方式,对特征一个一个进行处理,可以产生可视化的分类规则,模型具有强解释性。
逻辑回归的线性模型是将所有特征值赋予权重,转换为概率,将大于概率阈值的划分为一类,小于概率阈值的划分为一类。
2 如何构造决策树
决策树的构造思想: 寻找最纯净的划分方法,在数学上叫做纯度,通常可以理解为将不同分类分的足够开。
构造过程:
那么如何选取最优特征值?
ID3算法用的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数。
2.1 信息增益
2.1.1 信息熵
信息熵是表示随机变量不确定性的变量
信息增益是指知道一个信息Y后能够获取多少关于另外一个相关X的信息(由Y引入而使X的不确定度减小的量)。
存在两个随机事件X,Y ,一个随机事件X具有不确定性H(X),当X,Y相关联,Y已知时,X的不确定性就会变化,这个变化值就是X的信息熵减