1、先来个正式的定义:决策树是一个树结构(可以是二叉树或非二叉树)。其每个飞叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,知道到达叶子节点,将叶子节点存放的类别作为决策结果。
2、决策数分为分类树和回归树。分别针对应于离散变量和连续变量。
3、整体框架:
决策树的学习过程:
- 特征选取:从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准,从而衍生出不同的决策树算法。
- 决策树生成:根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树生长。树结构来说,递归结构是最容易理解的方式。
- 剪枝:决策树容易过拟合,一般需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。
4、构造决策树的关键性内容就是进行属性选择度量,即特征选取。</