数据挖掘导论学习笔记(四)

本文介绍了基于规则的分类器,包括分类规则的形式、质量衡量标准、工作原理及规则集的特性。讨论了互斥规则和穷举规则的概念,并提出了解决规则覆盖不全和非互斥的问题。此外,还涵盖了顺序覆盖算法、RIPPER算法以及最近邻分类器的工作方式和特点。
摘要由CSDN通过智能技术生成

第五章 分类:其他技术

基于规则的分类器:
每一个分类规则可以表示为如下形式:
ri: (条件i) ----> yi
规则: (条件i)
规则前件或前提:规则左边
规则后件:规则右边,包含预测类yi
分类规则的质量衡量 :
给定数据集D和分类规则 r:A---->y
(1)覆盖率:D中触发规则r的记录所占比例
(2)准群率或置信因子:触发r的记录中类标号等于y的记录所占比例。

基于规则的分类器的工作原理:
确保分类器能对记录做出可靠的预测,基于规则的分类器所产生的规则集的两个性质:
(1)互斥规则
如果规则集R中不存在两条规则被同一条记录触发,则称规则集R 中的规则是互斥的。
这个性质确保每条记录至多被R中一条规则覆盖。
(2)穷举规则
如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R是穷举覆盖。
两条性质保证数据集中的每一条记录被切仅被一条记录覆盖。
如果规则集不是穷举,那么必须田建一个默认规则来覆盖未被覆盖的记录。前件为空,后件是默认类。

如果规则集不是互斥,那么一条记录可能被多个规则覆盖。解决办法:
(1)有序规则
规则表中规则按照优先级降序排列,优先级的定义有很多种方法(覆盖率,准确率等等)。
一个有序的规则集也称为一个决策表
(2)无序规则
允许一条测试记录触发多条分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值