【算法】CART算法树 -- 猫头鹰的理解思路

最新推荐文章于 2022-05-08 21:40:53 发布

微笑的猫头鹰

最新推荐文章于 2022-05-08 21:40:53 发布

阅读量666

点赞数 1

分类专栏：算法文章标签：算法决策树 python 机器学习人工智能

本文链接：https://blog.csdn.net/ww65369186/article/details/103907066

版权

这篇博客通过猫头鹰小盆友的例子，以易懂的方式解释CART算法树。介绍了CART在决策树算法中的位置，以及与其他算法如ID3、C4.5的区别。详细阐述了CART的Gini Impurity概念，并通过实例展示了如何计算不纯度。文章还讨论了决策树的工作流程和核心公式，以及组合排列的相关知识。

摘要由CSDN通过智能技术生成

CART算法树前言

尽量用猫头鹰小盆友能理解的思维来解释和记录这一算法。概念和原理不一一再重复介绍了，很多好的链接已经说的很仔细了，此文是写给那些像我一样的小白，即使看了别人写的还是没法明白那西格玛公式以及各种算法，所以用了猫头鹰小盆友举例法来尝试白话文it，最后写的比较乱，毕竟还是自己的草稿，自己理解了就懒得继续往下写了，Impurity推理公式花的时间最多，因为当时自己不理解，后续会更新一个案例使用手写CART算法树来处理MNIST数据集，代码会更新在Github上。

决策树系列算法比较

决策树算法中，

ID3使用信息增益(选大的)
C4.5使用信息增益比(选大的)
CART使用Gini(选小的)

原数据 + 需求举例

按照AI处理主流流程，分三步：

原数据 + 模型（此处我们采用CART）+ 需求（要解决的问题）

给出特征和最终Label ，使用CART实现最终分类。

原数据，特征是Color 和Diameter，最终Label是结果
Cart模型解决问题的架构思路（造一个树把原数据分类，最终叶子节点就是所有原数据）
思考：

有什么问题可以当做决策树的判断? (所有特征里distinct的值）
问题都有了，按照什么样的顺序问效率最好（Information Gain最大）
Information Gain 是什么? （Information Gain= 上一层的Impurity - 下一层的Impurity的平均值）

大致Workflow

获取不同问题后下一层的Impurity的平均值
比较所有问题，使用Gain最大的一直作为决策条件
递归直至Impurity = 0

核心公式

对于任意一个含有 $j$ 个不同类别 label 的集合， $p i$ 表示第 $i$ 种类别的元素占比（抽中概率）， $\in \{1, 2, .., j\}$ ，于是我们的基尼不纯度公式如下：

$\sum_{i=1}^j p_i^2$

或者写成 $g i n i$ 代替， $i m p u r i t y$ 都是一个意思。

有的地方写的是 $\sum_{i=1}^j p_i(1-p_i)$

最低0.47元/天解锁文章

微笑的猫头鹰

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
【算法】CART算法树 -- 猫头鹰的理解思路

CART算法树前言尽量用猫头鹰小盆友能理解的思维来解释和记录这一算法。概念和原理不一一再重复介绍了，很多好的链接已经说的很仔细了，此文是写给那些像我一样的小白，即使看了别人写的还是没法明白那西格玛公式以及各种算法，所以用了猫头鹰小盆友举例法来尝试白话文it，最后写的比较乱，毕竟还是自己的草稿，自己理解了就懒得继续往下写了，Impurity推理公式花的时间最多，因为当时自己不理解，后续会更新一个案...
复制链接

扫一扫