分类Classification：决策树Decision Tree

最新推荐文章于 2022-07-31 21:06:34 发布

爱写bug的小程序

最新推荐文章于 2022-07-31 21:06:34 发布

阅读量747

点赞数

分类专栏：学习笔记文章标签：分类数据挖掘决策树 Gini index

本文链接：https://blog.csdn.net/weixin_51032998/article/details/121853186

版权

学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

分类的定义

分类：建立一个学习函数(分类模型)将每个属性集合（x1,x2,...xn）对应到一组已定义的类别y中。

分类结果的评估的四大指标：

Precision精确度
Recall召回率
Accuracy准确度
Error rate错误率

分类矩阵/混淆矩阵confusion Matrix：

		实际
		地雷玩家	非地雷玩家
预估	地雷	a	b
预估	非地雷	c	d

$Precision=\frac{a}{a+b}$ 越高越好

$Recall=\frac{a}{a+c}$ 越高越好

$Accuracy=\frac{a+d}{a+b+c+d}$ 越高越好

$Error\, rate=\frac{b+c}{a+b+c+d}$ 越小越好

决策树Decision Tree

决策树是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。

混乱衡量指标Gini index

Gini index擅长处理True或False的二元分类树。其计算公式为：

$Gini(x)=1-\sum (P(Xi)^{2})$

其中：

Gini index的计算：

分类前数据：

分类属性1：偏好女主角

$Gini(left)=1-[(\frac{4}{7})^{2}+(\frac{3}{7})^{2}]=0.4898$

$Gini(right)=1-[(\frac{2}{5})^{2}+(\frac{3}{5})^{2}]=0.48$

$\Delta =0.5-(\frac{7}{12}*0.4898+\frac{5}{12}*0.48)=0.014$ 表示在该分类属性下的分类效果，Δ越大越好

分类属性2：能carry整场

$Gini(left)=1-[(\frac{1}{5})^{2}+(\frac{4}{5})^{2}]=0.32$

$Gini(right)=1-[(\frac{5}{7})^{2}+(\frac{2}{7})^{2}]=0.4081$

$\Delta =0.5-(\frac{5}{12}*0.32+\frac{7}{12}*0.4081)=0.129$

综上，可以看出属性2的分类效果比较好。

属性分支数与模型复杂度：在决策树中，分支数越多，乱度越低，但模型越复杂（即过度适配）。

决策树的特点

建设成本低，速度快，一次构建，反复使用；
模型可以读性好，具有描述性，有助于人工分析；
乱度测量方法的选择对分类结果影响不大；

爱写bug的小程序

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录