决策树在MLib中的实现解析

最新推荐文章于 2024-07-19 10:37:21 发布

杨步涛的博客

最新推荐文章于 2024-07-19 10:37:21 发布

阅读量8.6k

点赞数

分类专栏：机器学习(广告、推荐、数据挖掘) spark 文章标签： spark MLlib 决策树

本文链接：https://blog.csdn.net/yangbutao/article/details/45097025

版权

本文介绍了决策树在机器学习库MLlib中的实现，包括其优势、过拟合的解决方案，以及如何通过信息增益、熵和基尼指数进行特征选择。还探讨了Spark MLlib对决策树的支持，如分类、回归、参数设置和剪枝策略，以及在分布式环境中的优化技巧。

摘要由CSDN通过智能技术生成

决策树作为一种分类回归算法，在处理非线性、特征值缺少的数据方面有很多的优势，能够处理不相干的特征，并且对分类的结果通过树的方式有比较清晰的结构解释，但是容易过拟合，针对这个问题，可以采取对树进行剪枝的方式，还有一些融合集成的解决方案，比如随机森林RandomForest、GBDT (Gradient Boost Decision Tree)等，对于随机森林、GBDT在后面的章节进行介绍

模型的训练过程其实是决策树的构造过程，它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较，并根据不同的属性值判断从该结点向下分支，进行递归进行划分，直到满足一定的终止条件(可以进行自定义)，其中叶结点是要学习划分的类。在当前节点用哪个属性特征作为判断进行切分(也叫分裂规则)，取决于切分后节点数据集合中的类别(分区)的有序(纯)程度，划分后的分区数据越纯，那么当前分裂规则也合适。衡量节点数据集合的有序无序性，有熵、基尼Gini、方差，其中熵和Gini是针对分类的，方差是针对回归的。

这里介绍一下常用的熵以及信息增益。

熵代表集合的无序性的参数，熵越大，代表越无序、越不纯。熵的公式如下：

其中c表示类别，是样本集合中属于类别i的概率

在决策树分类中，一般是用信息增益infoGain来作为决策树节点特征属性划分的依据，采用使得信息增益最大的属性作为数据划分的度量依赖。信息增益infoGain定义如下：
其中V(A)代表属性A的分区，S代表样本集合，是S中属性A的值属于v分区的样本集合
决策树的算法实现在学术界有ID3，C4.5，CART等， ID3采用信息增益作为属性选择的度量，参见上面的Gain，这种方式的一个缺点是在计算信息增益时，倾向于选择具有大量值的属性，因此提出了C4.5的基于信息增益率的度量，而CART使用基尼Gini指数作为属性选择的度量，这些算法之间的差别主要包括在训练创建决策树过程中如何选择属性特征，以及剪枝的机制处理。这些算法相关的定义可以参考相关的材料，这里不做介绍了。
Spark MLlib对决策树提供了二元以及多label的分类以及回归的支持，支持连续型和