【数据挖掘·总复习】第四章||决策树||知识点整理||自食用

41 篇文章 1 订阅
9 篇文章 3 订阅

step by step.

目录

1. 概念

2. 步骤

(1) 决策树生成算法​

 (2) 决策树剪枝算法

3. 决策树分类算法——ID3

(1) 算法核心

(2)信息增益和信息熵

信息熵:

信息增益

(3)例题 

(4) ID3算法流程

(5) 例题环节 耶

还是要动手算了才能加深理解! 

(6) ID3特点

(7) ID3与ID4.5区别

        ID4.5(算法思想与ID3相同)


要看具体章节复习汇总请见👇

【scau数据挖掘·总复习】博客汇总||第一章~第九章+密度聚类_半段烟y9的博客-CSDN博客step by step.目录第二章第三章第四章第五章第六章第七章第八章、第九章、补充知识第二章【数据挖掘·总复习】第二章-数据预处理||详细整理||知识点+例题||考点有_半段烟y9的博客-CSDN博客详细复习资料https://blog.csdn.net/weixin_51159944/article/details/120444098第三章【数据挖掘·总复习】第三章-关联规则挖掘||Apriori||详细整理||知识点+例题||考点有_半段烟y9的博https://blog.csdn.net/weixin_51159944/article/details/122111501

自己辛苦总结的,点个赞鼓励一下啦~


1. 概念

决策树:采用自顶向下的递归方法。从根到叶节点的一条路径代表这一条合取规则。

内部节点:属性上的测试

树叶节点:类或类分布

分支:测试输出

2. 步骤

(1)决策树生成

(2)决策树修剪

(1) 决策树生成算法

 (2) 决策树剪枝算法

预先剪枝+后剪枝

3. 决策树分类算法——ID3

         是个贪心算法。

(1) 算法核心

ID3算法的核心是在决策树各级结点上选择属性时,用信息增益作为属性的选择标准,以使得在每一个非结点进行测试时,能获得关于被测试记录最大的类别信息。

(2)信息增益和信息熵

为了寻找对样本进行分类的最优方法,我们要做的工作就是使对一个样本分类时需要问的问题最少(即树的深度最小因此,我们需要某种函数来衡量哪些问题将提供最为平衡的划分,信息增益就是这样的函数之一。

信息熵:

a. 当n=2,p1=p2=0.5时

entropy(S)=1,此为最大。

b. 当n=2,p1=0.67,p2=0.33

entropy(S)=

样本的概率分布越均衡,它的信息量(熵)就越大样本集的混杂程度也越高。因此,熵可以作为训练集的不纯度(impurity)。

信息增益

属性AS划分成m ,根据A划分的子集的熵或期望信息 👇

 因为知道属性A的值后导致的熵的期望压缩 👇

 gain(S,A) 越大,说明选择测试属性A对分类提供的信息越多

(3)例题 

play(结论的信息熵)

 outlook(一个属性与结论相关的信息熵):

        outlook分为sunny,overcast,rainy三种,每种对应的play结论要各自分析~

👇

       a. 算各自的信息熵:

        先算sunny

        同理:可以计算出 overcast 和 rainy 的熵分别为00.971。

(overcast的结论全为yes,rainy的结论有3yes2no)

|Ssunny| = 5;    |Sovercast| = 4;    |Srainy| = 5

        b. 期望信息:

        c. 信息增益:

 其他属性同。

  创建分支

分类算法之决策树ID3详解_春华秋实-CSDN博客_决策树id3算法例题回顾决策树的基本知识,其构建过程主要有下述三个重要的问题:     (1)数据是怎么分裂的     (2)如何选择分类的属性     (3)什么时候停止分裂     从上述三个问题出发,以实际的例子对ID3算法进行阐述。先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果https://blog.csdn.net/qq_36330643/article/details/77415451?ops_request_misc=&request_id=&biz_id=102&utm_term=ID3%E7%AE%97%E6%B3%95%20%E4%BE%8B%E9%A2%98%20%E5%A4%A9%E6%B0%94&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-7-77415451.first_rank_v2_pc_rank_v29&spm=1018.2226.3001.4187

(4) ID3算法流程

用能产生最大信息增益的属性来作分支。

草图: ) 勿喷

(1) 初始化决策树T,使其只包含一个树根结点(X,Q),其中X是全体样本集,Q为全体属性集。

(2) if(T中所有叶节点(X,Q)都满足X属于同一类或Q’为空) then 算法停止;

(3) else { 任取一个不具有(2)中所述状态的叶节点(X,Q)

(4) for each Q’中的属性A  do 计算信息增益gain(A,X) 

(5) 选择具有最高信息增益的属性B作为节点(X,Q)的测试属性;

(6) for each B的取值bi do从该节点(X, Q)伸出分支,代表测试输出B=bi;求得XB值等于bi的子集Xi,并生成相应的叶节点(Xi,Q-{B})}

(7) (2)}

(5) 例题环节 耶

eg1.

解:

实在是没时间打字了...

 

entropy越小,说明gain越大,则说明该属性越有用~

eg2.

解:

实在是没时间打字了...

还是要动手算了才能加深理解! 

(6) ID3特点

        优点:理论清晰,方法简单,学习能力强。

        缺点:信息增益计算依赖于特征数目较多的特征, 而属性取值较多的属性并不一定最优

                   非递增算法。

                   单变量决策树(分支节点上只考虑单个属性)。【解决方法:离散化】

                   抗噪性差。

(7) ID3与ID4.5区别

        ID4.5(算法思想与ID3相同)

        采用增益比例insteadOf信息增益。

        按照数值属性值的大小对样本进行排序。从中选择一个分割点,划分数值属性的取值区间,从而将ID3的处理能力扩充到数值属性上来。

        使用k次迭代

     


 考试加油!!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值