python|决策树算法


b站Tommy唐国梁
之前一直在解决客户流失预测,从github上面用kaggle为例子做了一个模拟,发现用的最多还是决策树的模型,于是决定学习,整理一下这周的学习内容,然后赶紧搜集代码,赶工。

1.什么是决策树

(1)由一个根结点,若干个内部节点,若干个叶子结点构成,内部节点是一个判断的问题,叶子结点是可能有的结果。
(2)可以解决分类和回归问题,天然解决多分类问题
(3)非参数学习算法,不同于tensorflow通过数据学习调整参数,主要是自己调参。

2.决策树的目标

通过一种衡量标准,来计算通过不同的特征进行分支选择后的分类情况,找出最好的特征当成根结点,以此类推。

3.两大问题

(1)每个节点在哪个维度上做划分?
(2)每个维度在哪个值做划分?

4.两大措施(衡量标准)

核心原理类似但是计算方式不太一样
(1)信息熵entropy
(2)基尼系数gini

5.信息熵(ID3)

什么是熵:在信息论中代表随机变量的不确定性的度量
熵越小,数据的不确定性越高;反之则反。
计算公式:主要是对数函数的特征,当x=1,函数值为0.还有就是负号也是一个特点

6.基尼系数(CART算法)

在分类问题中,假设有k个类别,样本点属于第i类的概率为pi,则概率分布的基尼系数定义为:

7.决策树的最大挑战——过拟合

应对措施:剪枝,降低过拟合风险,提高模型的泛化能力(在测试集和训练集上都有很好的表现)。
(1)预剪枝(常用)
定义:边建立决策,边剪枝。
方法:限制深度,叶子结点个数,叶子结点样本数,信息增益等。(sklen函数库)
(2)后剪枝
定义:当建立完决策树后,再来进行剪枝操作。
方法:通过一定的衡量标准(计算叶子结点的损失)下图为计算公式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值