决策树-CSDN博客

武汉白云黄鹤站∶精华区
发信人: fatyang (天边的乌云), 信区: Algorithm
标题: 决策树(一)
发信站: 武汉白云黄鹤站 (Tue Sep 22 16:51:50 1998) , 转信

决策树
决策树方法的起源是概念学习系统CLS，然后发展到ID3方法而为高潮，最后又演化为能处理连续
属性的C4.5。有名的决策树方法还有CART和Assistant。

决策树构造的输入是一组带有类别标记的例子，构造的结果是一棵二叉或多叉树。二叉树的内部节
点（非叶子节点）一般表示为一个逻辑判断，如形式为(ai = vi )的逻辑判断，其中ai 是属性，vi是
该属性的某个属性值；树的边是逻辑判断的分支结果。多叉树（ID3）的内部节点是属性，边是该
属性的所有取值，有几个属性值，就有几条边。树的叶子节点都是类别标记。

构造决策树的方法是采用自上而下的递归构造。以多叉树为例，它的构造思路是，如果训练例子集
合中的所有例子是同类的，则将之作为叶子节点，节点内容即是该类别标记。否则，根据某种策略
选择一个属性，按照属性的各个取值，把例子集合划分为若干子集合，使得每个子集上的所有例子
在该属性上具有同样的属性值。然后再依次递归处理各个子集。这种思路实际上就是“分而治之”
（divide-and-conquer）的道理。二叉树同理，差别仅在于要选择一个好的逻辑判断。

属性选择

构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子，可以有很多决策树
能符合这组例子。人们研究出，一般情况下或具有较大概率地说，树越小则树的预测能力越强。要
构造尽可能小的决策树，关键在于选择恰当的逻辑判断或属性。由于构造最小的树是NP-难问题，
因此只能采取用启发式策略选择好的逻辑判断或属性。属性选择依赖于各种对例子子集的不纯度（
impurity）度量方法。不纯度度量方法包括信息增益（informatin gain）、信息增益比（gain
ratio）、Gini-index、距离度量（distance measure）、J-measure、G统计、χ2统计、证据权重
（weight of evidence）、最小描述长（MLP）、正交法（ortogonality measure）、相关度（
relevance）和 Relief。不同的度量有不同的效果，特别是对于多值属性。

--
※ 来源:·武汉白云黄鹤站 s1000e.whnet.edu.cn·[FROM: 202.114.7.198]

华中地区网络中心
武汉白云黄鹤站∶精华区
发信人: fatyang (天边的乌云), 信区: Algorithm
标题: 决策树(二)
发信站: 武汉白云黄鹤站 (Tue Sep 22 17:00:43 1998) , 转信

噪声与剪枝

真实世界的数据（数据开采的对象显然就是真实世界数据）一般不可能是完美的，①可能某些属性
字段上缺值（missing values）；②可能缺少必须的数据而造成数据不完整；③可能数据不准确含
有噪声甚至是错误的。我们在此主要讨论噪声问题。

基本的决策树构造算法没有考虑噪声，生成的决策树完全与训练例子拟合。有噪声情况下，完全拟
合将导致过分拟合（overfitting），即对训练数据的完全拟合反而不具有很好的预测性能。剪枝是
一种克服噪声的技术，同时它也能使树得到简化而变得更容易理解。有两种剪枝策略：向前剪枝（
forward pruning）和向后剪枝（backward pruning）。向前剪枝方法是，在生成树的同时决定是继
续对不纯的训练子集进行划分还是停机。向后剪枝方法是一种两阶段法：拟合－化简（fitting-and-
simplifying），首先生成与训练数据完全拟合的一棵决策树，然后从树的叶子开始剪枝，逐步向根
的方向剪。剪枝时要用到一个测试数据集合（tuning set或adjusting set），如果存在某个叶子剪去
后能使得在测试集上的准确度或其它测度不降低（不变得更坏），则剪去该叶子；否则停机。理论
上讲，向后剪枝好于向前剪枝，但计算复杂度大。剪枝过程中一般要涉及一些统计参数或阈值，如
停机阈值；有人提出了一种和统计参数无关的基于最小描述长（MDL）的有效剪枝法。

值得注意的是，剪枝并不是对所有的数据集都好，就象最小树并不是最好（具有最大的预测率）的
树。当数据稀疏时，要防止过分剪枝（over-pruning）。从某种意义上讲，剪枝也是一种偏向（
bias），对有些数据效果好而有的数据则效果差。

子树复制和碎片问题

由于属性间存在相关性和多项性（一个结果可由多个条件决定）。例如，如布尔函数f =
x1x2+x3x4中属性x1和x2，或属性x3和x4间不是相互独立的、而是存在相关性；另外，该布尔函数
有多个乘积项 x1x2和x3x4。出现这种情况时，生成的决策树会有子树复制问题（replication
problem）。复制现象导致决策树不易理解，同时还导致碎片问题：当树很大时，会造成数据集的
划分越来越小，从而预测越差。

解决子树复制和碎片问题的方法主要是采取特征构造。特征构造一般计算复杂度高，为了降低特征
构造的代价，先是选取重要特征（或去除不相关特征）形成初始相关特征集，再在该初始特征集的
基础上构造新的复杂特征（初始相关特征的各种组合）。

另外，最近研究人员又提出了一种新的表示方法－决策图（decision graph）。决策图中没有冗余
结点，具有可读性，既解决了复制问题，同时还能解决碎片问题。

--
※ 来源:·武汉白云黄鹤站 s1000e.whnet.edu.cn·[FROM: 202.114.7.198]

华中地区网络中心