一、介绍
1、决策树
decision tree,分类和预测的方法,有监督的学习算法,以树状图为基础,输出结果为简单实用规则。
2、适用范围
分类问题,回归问题。
3、优点
可读性强,分类速度块。
4、采用原则
损失函数最小化原则。
5、决策树原理
决策树是一个贪心算法,即在特性空间上执行递归的二元分割,决策树由节点和有向边组成。
内部节点:一个特征或者属性。
叶子节点:一个分类。
使用决策树进行分类时,将实例分配到叶节点的类中,该叶节点所属的类就是该节点的分类。
决策树可以表示给定特征条件下,类别的条件概率分布。将特征空间划分为互不相交的单元S1、S2、……Sm。设某个单元Si内部有Ni个样本点,则它定义了一个条件概率分布:
K为第k个分类。
1)每个单元对应于决策树的一条路径。
2)所有单元的条件概率分布构成了决策树所代表的条件概率分布。
3)在单元Si内部有Ni个样本点,但是整个单元都属于类