定义
决策树是一种基本的分类与回归方法,在分类问题中,可以被认为是定义在特征空间与类空间 上的条件概率分布。
个人认为决策树通过一种二分的方法划分样本空间,然后给每个样本空间标注一个对应分类。决策树的生成算法主要是解决如何更合理地划分样本空间,剪枝算法主要是缓解由于决策树的过于复杂导致出现的过拟合现象。
学习算法
1.特征选择
a.信息增益-------对应ID3生成算法
b.信息增益比----对应ID4.5生成算法
c.基尼指数-------对应CART生成算法
d.划分均值插----对应最小二乘生成算法
2.树的生成
由于从可能的决策树中直接选取最优决策树是NP完全问题,所以现实中采用的是启发式方法学习次优的决策树,依据特征的选取有对应的不同生成算法,具体参照1。
3.树的剪枝
由于生成的决策树存在过拟合问题,需要对它进行剪枝以提高预测率,个人认为就是通过一些指标,如子树损失估价函数,自下而上通过树形DP合并一部分子树,降低决策树的复杂度。