入门篇:决策树学习建议(写给在学习中遇到困难的同学)

目录

一、决策树简介

二、决策树的学习路线

三、决策树的学习重心与学习要求

四、学习禁忌-先学ID3

五、特别声明-本站对各种决策树的称呼


决策树的内容比较混杂,一条好的学习路线能起到事半功倍的作用。

本文不涉及任何的决策树原理,主要给大家梳理学习路线和学习重心,以帮助后面更轻松的学习

如果你在学习决策树的过程中遇到了疑惑,那希望这篇文章能帮助到你。

一、决策树简介

决策树主要有两支线:
(1) CART: classification and regression tree,分类与回归树(即CART自身包括了分类树与回归树)
(2) ID3系列: ID3算法,C4.5算法,C5.0算法


ID3系列起源更早,但目前使用更多、更好用的是CART树。ID3在实际中很少使用,大部分软件包也不支持。

决策树的CART算法:《CART决策树模型简介

决策树的ID3算法:《决策树ID3算法

决策树的C4.5算法:《决策树C4.5算法

二、决策树的学习路线


由于决策树包含了两条路线,且每条路线有各自的发展,导致决策树的知识非常混乱。学习路线非常重要。错误的学习路线,会将决策树众多概念混淆在一起。一条明晰的路线,可以由简到繁,起到学习的事倍功倍
决策树的学习路线建议如下:


1.先学习CART决策树分类树
2.再学习CART决策树回归树
3.先学习ID3
4.再学习C4.5。
最后,将各个决策树进行比较,辨识共同之处与差异之处。


三、决策树的学习重心与学习要求

1.CART分类树 :重点,紧紧掌握
2.CART回归树 :其次,一般掌握
3.先学习ID3:了解
4.再学习C4.5:了解


目前实际中用得最多的是CART的分类树,回归树是其次(一般不用决策树做回归,但后面有算法依赖回归树,所以也必须学习)。
ID3和C4.5系列只要求了解,现在大部分(目前我知道的)软件包不支持ID3和C4.5,也就是说,你要使用ID3,必须自己编写程序细节,另一方面,为什么软件包不实现它,这个值得深思。
 

补充两个需要注意的点:
(1) 学习的时候,要注意不要被ID3系列的概念影响到CART的学习,ID3很多概念已经是被渐渐抛弃了的,很多网文中,并没有指出实际应用中ID3的非重要性,以致于整个决策树概念非常冗重,初学者必须引起重视
(2) 软件包中基本不再实现ID3系列的算法,因此,日常人们所说的决策树,通常是指CART决策树,甚至是指CART决策树中的分类树。


      为什么笔者要做这样的强调,因为很多年前笔者学习ID3时,就从入门到了放弃,连CART都没学成。直到多年后在工作中才发现,真正使用的是CART,而不是ID3,而懂不懂ID3跟CART的使用半毛钱关系都没有。

      一个一生都不太有可能去真实落地的算法,何必要强加自己一定要知道它的每一个细节呢?又何必要把时间浪费在它身上呢?只是大部分的教程,总是从ID3入手,给当年初入茅庐的笔者一种错觉,以为一定要学会ID3才算懂决策树。其实不然,ID3(C4.5)在实际中只能充当一种历史知识,所以,把ID3定位在一种“仅需了解”的地位上,一下子整个学习都轻松了许多。那还要不要学ID3?那是肯定的,别人懂的,你至少也要有所了解。至于“ID3\C4.5代码实现”,笔者就不建议了。---个人意见,仅供参考。


四、学习禁忌-先学ID3

说明:如果是第一次接触决策树,可以略过,跟着笔者的教程走就行。这段仅写给有决策树学习经验同学。
为什么说先学ID3是一种禁忌?


(1) ID3算法中,有比较明显的缺陷,一个缺陷越多的东西,对于逻辑紧密的同学,越难理解。
(2) 引入了熵这样的概念,熵本来就是一个不好理解的东西,这就是一道门槛和疑问了。
(3) ID3并非日常所用的决策树,这又很容易在学习时产生信息验证偏差,例如,ID3只支持枚举变量,而我们用的决策树(CART)支持连续变量,那就很容易产生误解,以为ID3也能支持连续变量,然后不断思考ID3是怎么支持连续变量。
(4) 软件并没有实现ID3,也就是在实现标准上没有较好的统一,看野包实现的流程,那是五花八门,众说纷芸的。


在学习了ID3后,再进行学习C4.5,又是一个坑,C4.5就是对ID3的缺陷进行补丁,笔者认为这些补丁的质量打得也不是非常完美,在一个基础就不好的东西上,再继续打补丁,非常别扭。所以,C4.5的学习同样会面临很多疑惑。


最重要的是,经过了漫长的ID3、C4.5,并没有掌握到实际使用的决策树(CART)原理,对学习来说,这种没有即时回报,是非常难熬的。往往学完C4.5已经透支了所有激情了。


但反过来,如果你直接学习CART,CART非常清晰明确,简单易理解,而且平时使用的就是CART,一切和实际使用能对上号,这种即时回报感,是非常好的鼓励。在站在CART的这个制高点上,再回头看ID3,ID3就好学很多了。


五、特别声明-本站对各种决策树的称呼

特别声明:本系列文章将根据日常实际称呼习惯,按以下对应各种决策树命名,而不再遵循学术名称:

本文以下如无特别说明,都默认所说的决策树是指CART分类树。


好了,闲话到此,下篇开启决策树之路吧!


相关文章

《入门篇-环境搭建:anaconda安装》

《​​​​​​入门篇-模型:逻辑回归》

《入门篇-模型:决策树-CART》

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值