Day 51: 决策树 和案例

本文介绍了决策树的基本概念,如信息熵和信息增益,并通过泰坦尼克号数据集展示了如何运用决策树进行分类。讨论了决策树的优缺点,包括其简单易懂、对数据准备需求较低等优点,以及可能存在的过拟合和不稳定性问题。文章还提及了改进决策树的方法,如减枝和随机森林。
摘要由CSDN通过智能技术生成

2020/05/13

决策树

决策树其实就是一直不断地if else 条件筛选。但是那个条件放在开始哪个条件放在最后 这就有一个条件的权重问题了。这时候就会有信息增益和信息熵的概念

信息熵

在这里插入图片描述
就是特征的不确定性,算是一个概率问题。比如32支球队 争夺冠军。 在不知道任何球队信息的时候, 每个球队得到冠军的概率d都是一样 1/32,所以 信息熵就是log32 就是5比特。当假如知道哪个球队强的话 改变了那支球队获胜的概率 那么这个信息熵就会比5比特小。
所以说信息和消除不确定性是相关的 信息熵越大,不确定性越大,最后结果就容易预测不准确

信息增益

所以说 :当得到一个信息对信息熵减小的程度就叫信息增益也就是能对增加预测结果的概率 那就是信息增益。
在这里插入图片描述

练习使用

在这里插入图片描述
一个银行贷款审核表,能不能贷款是目标特征。 先确定下信息熵 H(类别)=-(9/15log(9/15) - 6/15log(6/15)≈ 0.971. 这个信息熵也就是信息增益公式中的H(D)
计算出每个类别的信息增益:年龄特征有青年,中年,老年三个结果 所以:g(D,年龄)= H(类别)-[5/15H(青年)+5/15H(中年)+ 5/15H(老年)]。 再算出青年的信息熵,中年的信息熵,老年的信息熵 便能得出年龄特征的信息增益是多少。 青年的信息熵H(青年)= (2/5log(2/5) -3/5log(3/5) ) 代入上面信息增益的公式 得到青年的信息增益。然后再比较其他特征的信息增益,便能知道哪个特征影响最大,哪个特征就放在第一位决策树

决策分类方式

1.id3:信息增益最大的准则
2.C4.5:信息增益比最大准则
3.CART: 回归树:平方误差最小 分类树:基尼系数最小准则(在sklearn中可以选择划分的默认原则)

决策树API

class sklearn.tree.DecisionTreeClassifier(criterion='gin
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值