第七篇:机器学习基础之分类算法:决策树算法、决策树分类原理、熵&信息增益、cart剪枝、特征工程-特征提取(字典特征提取、中文和英文各自的文本特征提取、 Tf-idf文本特征提取)

本文介绍了决策树算法的基础知识,包括ID3、C4.5和CART决策树的分类原理,详细讲解了熵和信息增益等概念。同时,探讨了CART剪枝的原因和方法。在特征工程部分,讨论了特征提取的重要性,特别是字典特征、英文和中文文本特征的提取,以及如何使用Tf-idf进行文本特征提取。
摘要由CSDN通过智能技术生成

1 决策树算法简介

- 决策树定义:是一种树形结构,本质是一颗由多个判断节点组成的树。
- 决策树算法api:
    * class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)

2 决策树分类原理

2.1 熵:

- 物理学上,熵 Entropy 是“混乱”程度的量度: 系统越有序,熵值越低;系统越混乱或者分散,熵值越高。
- 信息熵(Entropy):
    * 从信息的完整性上进行的描述: 当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。
    * 从信息的有序性上进行的描述: 当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。

2.2 决策树的划分依据一----信息增益 - ID3决策树

- ID3只能对离散属性的数据集构成决策树
    * 用信息增益率来选择属性、可以处理连续数值型属性、采用了一种后剪枝方法、对于缺失值的处理
- 信息增益:以某特征划分数据集前后的熵的差值。可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。
    * 信息增益 = entroy(前) - entroy(后)
    * 信息增益表示得知特征X的信息而使得类Y的信息熵减少的程度

2.3 决策树的划分依据二----信息增益率 - C4.5 决策树

- C4.5 决策树 优化后解决了ID3分支过程中总喜欢偏向选择值较多的 属性
    * 优点:产生的分类规则易于理解,准确率较高。
    * 缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
           此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
- 信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的 C4.5 决策树算法 [Quinlan, 1993J 不直接使用信息增益,而是使用"增益率" (gain ratio) 来选择最优划分属性.
- 增益率:增益率是用前面的信息增益Gain(D, a)和属性a对应的"固有值"(intrinsic value) [Quinlan , 1993J的比值来共同定义的。

2.4 决策树的划分依据三 ----基尼值和基尼指数 - CART 决策树

- CART 决策树 可以进行分类和回归,可以处理离散属性,也可以处理连续属性。
    * C4.5不一定是二叉树,但CART一定是二叉树。
- CART 决策树 [Breiman et al., 1984] 使用"基尼指数" (Gini index)来选择划分属性.
    * CART 是Classification and Regression Tree的简称,这是一种著名的决策树学习算法,分类和回归任务都可用
- 基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不一致的概率。故ÿ
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值