【算法】决策树

决策树

定义&概念

决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

采用自上向下的递归方法,基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处熵值为0。

决策树思想,实际上就是寻找最纯净的划分的方法。

重要概念

根节点、内部节点、叶节点

  • 根节点:就是树的最顶端,最开始的那个节点。
  • 内部节点:就是树中间的那些节点。
  • 叶节点:树最底部的节点,也就是决策结果

父节点和子节点是一对,先有父节点,才会有子节点。

纯度

纯度也就是让目标变量的分歧最小。

纯度通俗点理解就是目标变量要分得足够开(y=1的和y=0的混到一起就会不纯)。另一种理解是分类误差率的一种衡量。

举个例子,假设有 3 个集合:

  • 集合 1:6 次都去打篮球;
  • 集合 2:4 次去打篮球,2 次不去打篮球;
  • 集合 3:3 次去打篮球,3 次不去打篮球。

按照纯度指标来说,集合 1> 集合 2> 集合 3。因为集合1 的分歧最小,集合 3 的分歧最大。

信息熵

来源于信息论。

是一种度量,表示信息的不确定度。当不确定性越大时,它所包含的信息量也就越大,信息熵也就越高

在信息论中,随机离散事件出现的概率存在着不确定性。为了衡量这种信息的不确定性,信息学之父香农引入了信息熵的概念,并给出了计算信息熵的数学公式。

单个熵

H ( X ) = − ∑ i = 1 n p i l o g p i H(X)=-\sum_{i=1}^np_ilogp_i H(X)=i=1npilogpi p i : 概 率 分 布 p_i:概率分布 pi:

例子

举个例子(单个熵),假设有 2 个集合:

  • 集合 1:5 次去打篮球,1 次不去打篮球;
  • 集合 2:3 次去打篮球,3 次不去打篮球。

集合1的信息熵: H ( X 1 ) = − 1 6 l o g 2 ( 1 6 ) − 5 6 l o g 2 ( 5 6 ) = 0.65 H(X_1)=-\frac{1}{6}log_2(\frac{1}{6})-\frac{5}{6}log_2(\frac{5}{6})=0.65 H(X1)=

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值