妈妈,我居然在CDA经管之家学挑西瓜


虽说处暑已过,意味着夏季的结束,可“秋老虎”马上就控制着南方地区,高温天气可丝毫不放过南方地区的小伙伴,深圳更是湿热湿热的,讲道理,这种天气不来块西瓜真的对不住自己哇。

吃西瓜前得学会挑西瓜,卖瓜的胖大妈一手拍着自己的肚皮,一手拍着瓜皮,“听见没,小伙子,这瓜声音清脆跟咱拍肚皮声音一样,难得的好瓜,不甜不要你钱!”大妈声音激昂带着自豪,话剧感十足。站在旁边的同行王大爷可不乐意了,“小伙子你看我这瓜,花纹完整又有规律、饱满,我这才是甜瓜,你试试我的瓜”,大爷拿着烟杆的手抱住西瓜就往我身上推,烟圈一圈跟着一圈……

当然了你不能立刻判断谁是对的,因为他们都是按照经验驱动进行决策选瓜的,可能漏掉了其他条件,又或者该条件根本不是决定手上拿的瓜是否是好瓜的关键因素,是不是难以决定?别急,咱交给计算机试试。

人工智能发展的今天,机器学习如何挑选西瓜已经不是难事了,今天说的就是一种常见的机器学习方法——决策树。

要想解释“决策树”这个算法,我们得首先拆分决策和树,我们先讲树,顾名思义,我们先构造树型结构,然后基于树结构来进行决策,这是不是很像人类在进行选择判断时候的思维方式,只不过这里面过程很快,似乎你自己都没怎么留意。

决策过程中提出的每个判断问题都是对某个属性的“测试”,比如这里的西瓜问题的一棵决策树,首先我们传入一些数据,这些数据从上往下走,一步一步判断,色泽是什么样子的,然后有些数据进入左边的分支,有些进入右边分支,而每个分支又继续按照当前的属性进行判断,直到最后判断出好瓜。

我们首先看决策树里的专业说法:根节点、非叶子节点(决策点)、叶子节点、分支。
根节点,顾名思义,根,第一个属性,比如这里的西瓜决策树“色泽=?”就是根节点;
叶子节点,后面不会继续进行判断了,比如这里的第二行矩形的右边矩形内就是叶子节点;
非叶子节点也叫决策点,与叶子节点相反,后面继续有分支,没有得出最终的结果。

决策树的两个阶段:

1决策阶段,从给定的训练集里构造一棵决策树,2分类阶段,从根开始,按照决策树的分类属性逐层往下划分,直到叶节点时获得结果。

刚才在展示西瓜问题的一棵决策树时,不知道你有没有这样的疑惑,这里的决策树根节点、叶子节点是怎么选的呢,是不是可以随便选的,他们的地位是一样可以互相换位置根据自己的喜好来的?你凭什么就把色泽当成根节点而不是其他属性呢?谁当根节点的问题,决策树是有一套规则的,我们先说一个概念——熵。

我最早接触这个字是高中化学的时候,老师说熵表示混乱的程度,熵值越高就越混乱,越低就越纯。决策树里的熵也同样如此,熵值越高,表示信息越杂,不确定性很大。

信息增益

构造决策树的基本思想是随着树深度的增加,节点的熵迅速的降低(也就是说我们想要找到高度最矮的决策树),前面我们说熵越高信息越杂,而我们希望熵下降的速度越快越好,首先根据公式计算不经过任何处理时的熵值;按照历史数据,我们尝试把每一个属性当作根节点计算信息熵,每个属性当作根节点时候的熵值求出来了,原始状态下的熵也计算出来了,原始的熵与每个属性当作节点的熵之差叫做信息增益,信息增益越大越好,哪个属性的信息增益越大,我们就选择谁当根节点,因为这样进行构造决策树才能满足高度最矮,那其他节点怎么安排呢,其实就是递归,依旧按照信息增益大就优先选谁。

信息增益率

当原始数据属性很多,可对应的个数却很少的时候,信息增益非常大,所以为了减少这种影响,我们想要一个相对的指标去判断,信息增益率就是信息增益比上自身的熵值,C4.5决策树算法就是使用增益率来选择最优划分属性,值得注意的是C4.5算法并不是直接选择增益率最大的时候划分属性,而是先从候选划分属性中找出信息增益高于平均水平的属性。

Gini系数
基尼系数的公式:

CART决策树使用基尼系数来选择划分属性(基尼系数值最小属性作为最优划分属性),其实Gini系数跟熵是一样的,基尼系数越小,则信息纯度就越高。

决策树剪枝

在决策树学习中,为了尽可能正确分类训练样本,节点划分过程中将不断重复,会造成决策树分支过多,而决策树剪枝就是为了防止决策树机器算法过拟合。
决策树剪枝有两种方式:预剪枝和后剪枝。

预剪枝:在构造决策树的过程中提前停止,比如我们可以指定决策树的深度(比如四),决策树在构造4层就会停止,对于最小样本量,我们也可以指定,达到最小样本样提前停止;

后剪枝:在决策树构造好后再开始剪枝,一棵决策树叶子节点个数越多,损失越大,所以后剪枝希望叶子节点少点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值