【DataWhale学习】Day10~13-4章决策树——西瓜书学习摘录笔记

【DataWhale学习】Day10~13-4章决策树——西瓜书学习摘录笔记

本文参考了周志华老师的西瓜书,李航老师的统计学习方法,谢文睿大佬的南瓜书(无推导尿点,仅加深理解食用)

决策树模型

​ 决策树是一种基本的分类与回归方法,其优点是模型具有较强的可读性,其学习的主要步骤包括3个:特征选择、决策树的生成和决策树的修剪。

​ 分类决策树模型是一种描述对实例进行分类的树形结构,由结点和有向边组成,结点有两种类型,即内部节点和叶节点(决定本身的性质的节点),内部节点表示一个特征,叶节点表示一个类

​ 决策树一般可看作为一个if-else规则的集合,由决策树的根结点到叶结点的每一条路径构建一条规则;路径上内部结点的特征对应着规则的条件,而叶结点对应着规则的结论。决策树的if-else规则具有一个重要的性质,即互斥与完备。简单来说就是互斥就是每个结论都是以一个不同的特征属性值来进行划分,不存在属性值上的歧义,完备是指特征值所取的值一定可以确定一条路线,而不存在没有列入其中的值。举一个例子,对于我们划分不同人的年龄,分为少年,中年,晚年。虽然我们是罗列了一个人人生的全部历程,但是我们并没有对年纪做出划分,但是这对于我们处理实际问题来说足够了。这里面的少年,中年,晚年描述了人年龄的全部阶段,所以我们阐明了特征选取的完备性。而互斥性的划分就是需要我们对年龄作出具体界定,究其原因,只有年龄才是划分人的阶段的最好指标(广义上来说),但是我们不能说明一个人24岁是少年还是中年,这样不符合互斥的原则,因此在选择的时候,可以选择24岁以下的是少年,60岁以上的是老年,剩下的都是中年,这样我们可以通过年龄保证特征值的互斥性。

​ 决策树在进行划分的时候,就会对所选取的特征空间进行划分,最后的一类即落在特种空间的一个封闭区域内。而我们在选取特征的时候,也需要注意特征选择的可划分性,对于模糊的概念有清晰的指标进行划分,这就是事关数据挖掘的问题,这里也不做过多的阐述。而特征值选择的优先性也会让我们产生困扰,虽然说和项目的具体需求相挂钩,但是这种玄而又玄的东西我们也难以琢磨,所以我们在保证需求的同时,引入了信息论中的信息增益,它可以很好地表征一个特征对于数据样本的可划分性。

信息增益

​ 先给出熵的概念,即表示随机变量不确定性的度量,在信息论与概率统计中,设X是一个区有限个值的离散随机变量,其概率分布为

在这里插入图片描述

​ 则随机变量熵的定义为

在这里插入图片描述

​ 对于一个随机变量只有两个取值,例如1,0时,X的分布为

在这里插入图片描述

​ 熵为

在这里插入图片描述

​ 当p=0或p=1时H§=0,随机变量完全没有不确定性。当p=0.5时,H§=1,熵得到取值最大,随机变量的不确定性最大。

​ 而信息增益的定义是,特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即

在这里插入图片描述

​ 其中的含义有点像是条件概率分布在对一个特征进行选取之后,再对另一个特征进行划分的收益,其中是相关特征之间存在关联,若是特征之间相互独立(概率中的意思),那么信息增益就为0,但是在通常情况下,我们的经验条件不会只有单一的特征取值。一般的,我们对单一的信息熵称为自信息,对信息增益类似的多个特征关系称之为互信息(mutual information)。指的注意的是,信息增益若是越大,说明划分信息的特征是越有效的,那么久具有更强的分类能力。

信息增益比

​ 以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题,因此我们需要对其进行校正。采用信息增益比可对其进行快速校正

​ 信息增益比:是关于该特征的信息增益与关于该特征熵之比,即
在这里插入图片描述

其中

在这里插入图片描述

n是特征A取值的个数

决策树的生成

======太难了 一时间没看懂,下次更

决策树的剪枝

======太难了 一时间没看懂,下次更

CART算法

======太难了 一时间没看懂,下次更

CART算法

======太难了 一时间没看懂,下次更

PS:坑已经挖好了,一定会补上的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值