决策树

目录:
一、特点
二、如何构建决策树
三、剪枝
四、随机森林

一、特点
(1)非参数学习算法
(2)可以解决分类问题
(3)天然可以解决多分类问题
(4)也可以解决回归问题
(5)非常好的可解释性

二、如何构建决策树
(1)熵:在信息论中代表随机变量不确定度的度量。
(2)熵越大,数据的不确定性越高;熵越小,数据的不确定性越低。
(3)信息熵:
在这里插入图片描述
3、信息增益(ID3):代表了在一个条件下,信息不确定性减少的程度。
4、信息增益率(C4.5):代表了在一个条件下,熵/信息增益。
5、基尼系数(CART)
(1)
在这里插入图片描述
(2)基尼系数越高,数据的不确定性越强;基尼系数越低,数据的不确定性弱。
5、评价函数(类似损失函数,越小越好):Nt:叶子结点中样本个数,H(t):熵值
在这里插入图片描述

6、
(1)决策树能够处理连续型的属性。首先将连续型属性离散化,把连续型属性的值分成不同的区间,依据是比较各个分裂点Gian值的大小。
(2)缺失数据的考虑:在构建决策树时,可以简单地忽略缺失数据,即在计算增益时,仅考虑具有属性值的记录。

三、剪枝
(1)预剪枝:在构建决策树的过程中,提前停止。
(2)后剪枝:决策树构建好后,才开始裁剪。
(3)叶子结点个数越多,损失越大;叶子结点个数:
在这里插入图片描述
在这里插入图片描述

四、随机森林
(1)Bootstraping:有放回采样。
(2)Bagging:有放回采样n个样本一共建立分类器。
(3)这里的随机有双重随机性:一是数据的选择随机性;二是特征的选择随机性。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值