决策树的优缺点
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型。
决策树的大致流程
1.根据信息增益(熵),寻找划分数据集的最好特征。
2.划分数据集
3.创建分支节点(建模)
基础概念
实战项目
https://www.cnblogs.com/zy230530/p/6813250.html
用Spark实现决策树
https://blog.csdn.net/baidu_41605403/article/details/83006973