数据挖掘导论(3)

最新推荐文章于 2020-03-05 13:29:04 发布

Zrx_

最新推荐文章于 2020-03-05 13:29:04 发布

阅读量1.6k

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44644341/article/details/100200250

版权

第四章分类:基础概念、决策树与模型评估

分类任务的输入是一个元组（x,y)，x是属性集，y是特殊属性（类标号）。
分类(classification) 就是通过学习得到一个目标函数(target function) f，把每个属性映射到一个预先定义的类标号y。（把属性集映射到一个类标号）
目标函数也称分类模型(classification model),可用于：

描述性建模：列出所有元组，并说明那些属性决定特殊属性。
预测性建模：给定属性集，自动得到特殊属性。

4.2 解决分类问题的一般算法
分类技术是根据输入数据集建立分类模型的系统方法。
分类法的例子包括：

决策树分类法
基于规则的分类法
神经网络
支持向量机
朴素贝叶斯分类法
这些技术都使用一种学习方法(learning algorthm) 确定分类模型。训练算法的主要目标就是建立具有良好泛化能力的模型，即能够准确预测类标号的模型。

分类模型的性能根据模型正确和错误预测检验记录计数进行评估，这些计数存放在称作混淆矩阵(confusion matrix) 的表格中。p106 二元类混淆矩阵对角线元素之和为预测成功的数目。

性能度量(performance metric)，如**准确率(accuracy)**能用一个数汇总不同模型的性能。也可以用错误率(error rate)。

4.3决策树归纳

决策树(decision tree)

根结点(root node)：没有入边，则有出边
内部结点(internal node)
叶结点(leaf node)或终结点(terminal node)：恰有一条入边，但没有初边。
在决策树中，每个叶结点都赋予一个类标号。**非终结点(non-terminal node)**包含属性测试条件。

从树的根节点开始，将检测条件用检测记录，根据检测结果选择合适的分支。沿该分支或者到达另一个内部结点，使用新的检试条件，或者到达一个叶结点。到达叶结点之后，叶结点的类称号就被赋值给

最低0.47元/天解锁文章

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。