DecisionTree
文章平均质量分 76
orisun
数据挖掘
展开
-
模型树--M5
模型树推广了回归树的概念,它与回归树的2个重要不同在于:叶节点上不是常量,而是一个线性函数模型。分割空间的标准不是降低平方误差,而是降低样本标准差。相比于回归树,模型树的优点在于:回归树的计算量随着维度的增加而迅速增加,但模型树比模型小得多,所以模型树在处理高维(数百)数据时会比较轻松。由于叶节点是采用的是线性函数而非常量,所以预测的精度更高。M5模型树划分的标准是:将一个节点原创 2013-01-04 11:39:46 · 6007 阅读 · 1 评论 -
回归树--CART
CART的全称是Classification And Regression Tree,于1984年由Breiman等人提出,顾名思义它可用于分类和回归,本文只讲它在回归上的应用。对于回归树有要这么几点认识:可以捕获Y对Xi的依赖性,上图的结果显示Y对X7和X8没有依赖。也可以充实我们对自变量之间关系的认识。树的形式简洁、高效。节点的每次分裂都把原样本空间划分为互不相交的两个原创 2013-01-03 21:32:58 · 4604 阅读 · 0 评论 -
剪枝导论
之前介绍了很多种决策树算法,每回都要唠叨点剪枝的问题,今天我们就来系统总结一下。为什么要剪枝?随着树的生长,树的低层节点覆盖的实例数迅速减少,尽管基于训练数据的估计误差越来越小,但是这种估计的不可靠性却越来越高。这就是剪枝的动机,剪枝已经成为决策树构造的逻辑延续。但是并没有直接的理由来说明剪枝就可以提高预测的准确性,因为现实中剪枝对于独立的、大量检验样本而言,会降低预测的准确率。应该说原创 2013-01-04 21:00:58 · 993 阅读 · 0 评论