决策树

武汉白云黄鹤站∶精华区
发信人: fatyang (天边的乌云), 信区: Algorithm
标  题: 决策树(一)
发信站: 武汉白云黄鹤站 (Tue Sep 22 16:51:50 1998) , 转信
 
 
 
决策树
决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而为高潮,最后又演化为能处理连续
属性的C4.5。有名的决策树方法还有CART和Assistant。
 
决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉或多叉树。二叉树的内部节
点(非叶子节点)一般表示为一个逻辑判断,如形式为(ai = vi )的逻辑判断,其中ai 是属性,vi是
该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树(ID3)的内部节点是属性,边是该
属性的所有取值,有几个属性值,就有几条边。树的叶子节点都是类别标记。
 
构造决策树的方法是采用自上而下的递归构造。以多叉树为例,它的构造思路是,如果训练例子集
合中的所有例子是同类的,则将之作为叶子节点,节点内容即是该类别标记。否则,根据某种策略
选择一个属性,按照属性的各个取值,把例子集合划分为若干子集合,使得每个子集上的所有例子
在该属性上具有同样的属性值。然后再依次递归处理各个子集。这种思路实际上就是“分而治之”
(divide-and-conquer)的道理。二叉树同理,差别仅在于要选择一个好的逻辑判断。
 
属性选择
 
构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子,可以有很多决策树
能符合这组例子。人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。要
构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于构造最小的树是NP-难问题,
因此只能采取用启发式策略选择好的逻辑判断或属性。属性选择依赖于各种对例子子集的不纯度(
impurity)度量方法。不纯度度量方法包括信息增益(informatin gain)、信息增益比(gain
ratio)、Gini-index、距离度量(distance measure)、J-measure、G统计、χ2统计、证据权重
(weight of evidence)、最小描述长(MLP)、正交法(ortogonality measure)、相关度(
relevance)和 Relief。不同的度量有不同的效果,特别是对于多值属性。
 
 
--
※ 来源:·武汉白云黄鹤站 s1000e.whnet.edu.cn·[FROM: 202.114.7.198]

华中地区网络中心
武汉白云黄鹤站∶精华区
发信人: fatyang (天边的乌云), 信区: Algorithm
标  题: 决策树(二)
发信站: 武汉白云黄鹤站 (Tue Sep 22 17:00:43 1998) , 转信
 
噪声与剪枝
 
真实世界的数据(数据开采的对象显然就是真实世界数据)一般不可能是完美的,①可能某些属性
字段上缺值(missing values);②可能缺少必须的数据而造成数据不完整;③可能数据不准确含
有噪声甚至是错误的。我们在此主要讨论噪声问题。
 
基本的决策树构造算法没有考虑噪声,生成的决策树完全与训练例子拟合。有噪声情况下,完全拟
合将导致过分拟合(overfitting),即对训练数据的完全拟合反而不具有很好的预测性能。剪枝是
一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。有两种剪枝策略:向前剪枝(
forward pruning)和向后剪枝(backward pruning)。向前剪枝方法是,在生成树的同时决定是继
续对不纯的训练子集进行划分还是停机。向后剪枝方法是一种两阶段法:拟合-化简(fitting-and-
simplifying),首先生成与训练数据完全拟合的一棵决策树,然后从树的叶子开始剪枝,逐步向根
的方向剪。剪枝时要用到一个测试数据集合(tuning set或adjusting set),如果存在某个叶子剪去
后能使得在测试集上的准确度或其它测度不降低(不变得更坏),则剪去该叶子;否则停机。理论
上讲,向后剪枝好于向前剪枝,但计算复杂度大。剪枝过程中一般要涉及一些统计参数或阈值,如
停机阈值;有人提出了一种和统计参数无关的基于最小描述长(MDL)的有效剪枝法。
 
值得注意的是,剪枝并不是对所有的数据集都好,就象最小树并不是最好(具有最大的预测率)的
树。当数据稀疏时,要防止过分剪枝(over-pruning)。从某种意义上讲,剪枝也是一种偏向(
bias),对有些数据效果好而有的数据则效果差。
 
子树复制和碎片问题
 
由于属性间存在相关性和多项性(一个结果可由多个条件决定)。例如,如布尔函数f =
x1x2+x3x4中属性x1和x2,或属性x3和x4间不是相互独立的、而是存在相关性;另外,该布尔函数
有多个乘积项 x1x2和x3x4。出现这种情况时,生成的决策树会有子树复制问题(replication
problem)。复制现象导致决策树不易理解,同时还导致碎片问题:当树很大时,会造成数据集的
划分越来越小,从而预测越差。
 
解决子树复制和碎片问题的方法主要是采取特征构造。特征构造一般计算复杂度高,为了降低特征
构造的代价,先是选取重要特征(或去除不相关特征)形成初始相关特征集,再在该初始特征集的
基础上构造新的复杂特征(初始相关特征的各种组合)。
 
另外,最近研究人员又提出了一种新的表示方法-决策图(decision graph)。决策图中没有冗余
结点,具有可读性,既解决了复制问题,同时还能解决碎片问题。
 
 
--
※ 来源:·武汉白云黄鹤站 s1000e.whnet.edu.cn·[FROM: 202.114.7.198]

华中地区网络中心 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值