AI算法24-决策树C4.5算法

西土瓦110

已于 2024-07-19 11:08:02 修改

阅读量576

点赞数 17

分类专栏： AI 文章标签：人工智能算法决策树 C4.5

于 2024-07-19 11:07:43 首次发布

本文链接：https://blog.csdn.net/yangguangjiujiu99/article/details/140543674

版权

AI 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

信息熵（Information Entropy）

信息增益（Information Gain）

决策树C4.5算法概述

决策树C4.5算法简介

C4.5算法是由Ross Quinlan开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的，因此该算法也可以用于统计分类。 C4.5算法与ID3算法一样使用了信息熵的概念，并和ID3一样通过学习数据来建立决策树

C4.5算法是数据挖掘十大算法之一，它是对ID3算法的改进，相对于ID3算法主要有以下几个改进

用信息增益比来选择属性
在决策树的构造过程中对树进行剪枝
对非离散数据也能处理
能够对不完整数据进行处理

决策树C4.5算法发展历史

最早的决策树算法是由Hunt等人于1966年提出的CLS。当前最有影响的决策树算法是由Quinlan于1986年提出的ID3和1993年提出的C4.5.其他早期算法还包括CART,FACT,CHAID算法。后期的算法主要有SLIQ, SPRINT, PUBLIC等。

传统的决策树分类算法主要是针对小数据集的，大都要求训练集常驻内存，这使得在处理数据挖掘任务时，传统决策树算法在可伸展性，精度和效率方面受到了很大的限制。而在实际的数据挖掘应用中我们面临的数据集往往是容量巨大的数据库或者数据仓库，在构造决策树时需要将庞大的数据在主存和缓存中不停地导入导出，使得运算效率大大降低。针对以上问题，许多学者提出了处理大型数据集的决策树算法。

	A	B	C
1	年份	事件	相关论文
2	1993	Ross Quinlan对ID3算法扩展，发明了C4.5算法	C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers.ISBN1-55860-238-0
3	2002	讲解了离散类数据挖掘的标杆属性选择技术，其中讲解了C4.5在大数据挖掘的应用。	Hall M A, Holmes G. Benchmarking Attribute Selection Techniques for Discrete Class Data Mining[J]. IEEE Transactions on Knowledge & Data Engineering, 2002, 15(6):1437-1447.

决策树C4.5算法原理

在深入了解C4.5算法之前，有必要明确几个核心概念和度量指标。本节将重点介绍信息熵、信息增益、以及信息增益比，这些都是C4.5算法决策树构建中的关键因素。

信息熵（Information Entropy）

信息熵是用来度量一组数据的不确定性或混乱程度的。它是基于概率论的一个概念，通常用以下数学公式来定义：

信息增益（Information Gain）

信息增益表示通过某个特征进行分裂后，数据集不确定性（即信息熵）下降的程度。信息增益通常用以下数学公式来定义：

信息增益比（Gain Ratio）

信息增益比是信息增益与该特征导致的数据集分裂复杂度（Split Information）的比值。用数学公式表示为：

决策树C4.5算法改进

在ID3中：

信息增益

按属性A划分数据集S的信息增益Gain(S,A)为样本集S的熵减去按属性A划分S后的样本子集的熵，即

在此基础上，C4.5计算如下：

分裂信息

利用引入属性的分裂信息来调节信息增益

信息增益率

信息增益率将分裂信息作为分母，属性取值数目越大，分裂信息值越大，从而部分抵消了属性取值数目所带来的影响。

相比ID3直接使用信息熵的增益选取最佳属性，避免因某属性有较多分类取值因而有较大的信息熵，从而更容易被选中作为划分属性的情况。