数据挖掘笔记——决策树

这篇博客详细介绍了决策树的学习过程,包括如何确定属性判断条件、切分属性顺序,以及模型评估方法。讨论了欠拟合与过拟合、缺失值处理,并通过比较基尼系数、熵和误分类误差来选择最佳切分属性。此外,文章还探讨了模型评估的指标,如混淆矩阵和ROC曲线,并提出了解决过拟合的预剪枝和后剪枝策略。
摘要由CSDN通过智能技术生成

1.介绍

      决策树是一种目标函数为离散值的学习方法(区别于回归),学习到的函数可以用树形表示也可以使用if-then规则来增加可读性。

    什么时候考虑使用决策树:(1)实例可以描述为属性-值对,即监督学习

                                            (2)目标函数是离散值

                                          (3)数据可能包含噪声和缺失值

      决策树表示实例属性值上约束合取的析取,这句话比较难理解,可以看一下下面图中的例子:


                                                那么就有三个问题:(1)如何确定属性判断条件

                                            (2)如何确定切分属性顺序

                                             (3)什么时候停止节点的划分

1.1.如何确定属性判断条件

        依赖于属性类型(标称顺序连续)和切分方式(二分类和多分类),二分类与多分类的区别如下图:



1.2.如何确定切分属性顺序

     首先先介绍一个概念:结点纯净度的度量,就是指一个结点相同类型的数据多则该节点较纯净。

    如果将纯净度这一指标量化表示有三个度量标准:基尼系数、熵、误分类误差

(1)基尼系数

   

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值