数据挖掘第四章——分类

最新推荐文章于 2022-09-13 11:06:08 发布

喝口茶吧

最新推荐文章于 2022-09-13 11:06:08 发布

阅读量707

点赞数 3

文章标签：数据挖掘分类决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45876739/article/details/122144870

版权

一、决策树

1.工作原理

2.建立决策树算法

（1）Hunt's Algorithm

（2）CART

（3）ID3,C4.5

（4）SLIQ, SPRINT

3.属性划分方法

二元属性：测试条件产生两个可能的输出。
标称属性

序数属性

连续属性：离散后划分；选取某一阈值进行二分

4.属性最佳划分策略（选取是的划分后数据单纯度最高（混乱度最低）的划分策略）

不纯度量：（c是类的个数）

（1）基尼系数GINI

节点GINI：
划分GINI：

结点计数

（节点）（划分）

（2）熵Entropy

节点Entropy：
划分Entropy：

（3）误分类误差Misclassification error

节点Error：

（4）二元分类问题不纯性度量之间的比较

5.何时停止拓展

所有数据都为同一类；
所有数据都有着相似的属性；
提前终止。

6.算法评价

优点：构造简单，预测迅速，在属性较少时解释性好

二、模型的过分拟合

1.模型拟合不足Underfitting和过分拟合Overfitting：当决策树很小时，训练和检验误差都很大即为拟合不足；当树的规模变得太大，及时训练误差还在继续降低，但是检验误差开始增大，这种为过分拟合。

2.最小描述长度MDL

3.处理决策树归纳中的过分拟合

先剪枝：当观察到的不纯性度量的增益低于某个确定的阈值时就停止扩展叶结点
后剪枝：自下而上修建完全增长的决策树。两种方法：

（1）用新的叶结点替换子树，该叶结点的类标号由子树下记录中的多数类确定；

（2）用子树中最常使用的分支代替子树。

4.其他问题

数据碎片
搜索策略
表现力
树的复制

三、分类模型的评估

1.混淆矩阵

（准确率 = 正确预则数/预测总数）

准确率Accuracy = (TP + TN) / (TP + TN + FP + FN) 预测正确的比率
精确率Precision = TP / (TP + FP) 找到的正例正确的比率
召回率Recall = TP / (TP + FN) 正例被找到的比率

2.代价矩阵

两者比较

3.保持方法

分2/3给训练集，1/3给测试集

4.交叉验证

ROC曲线：

TP rate, TPR = TP/(TP+FN) ； FP rate, FPR = FP/(FP + TN)

5.分层抽样

6.自助法

四、朴素贝叶斯分类器

利用贝叶斯公式，找出概率最大的C。

1.算法要点

在各个类C进行概率比较时，P(X)都包含在其中，因此可以忽略这一项，只比较分子；
似然函数的合成P(X∣C)=ΠjP(Xj∣C)=P(X1∣C)∗P(X2∣C)∗...
P(Xi∣C)的计算：
（1）对于离散数据可以用频率估计概率
（2）对于连续数据，基于高斯分布进行概率计算

2.算法评价

优点：实现简单效果好
缺点：要求各个属性互相独立

（举例见别的博文https://blog.csdn.net/guoyunfei20/article/details/78911721?ops_request_misc=&request_id=&biz_id=102&utm_term=%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-1-78911721.pc_search_result_control_group&spm=1018.2226.3001.4187）

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。