第五章 分类:其他技术
基于规则的分类器:
每一个分类规则可以表示为如下形式:
ri: (条件i) ----> yi
规则: (条件i)
规则前件或前提:规则左边
规则后件:规则右边,包含预测类yi
分类规则的质量衡量 :
给定数据集D和分类规则 r:A---->y
(1)覆盖率:D中触发规则r的记录所占比例
(2)准群率或置信因子:触发r的记录中类标号等于y的记录所占比例。
基于规则的分类器的工作原理:
确保分类器能对记录做出可靠的预测,基于规则的分类器所产生的规则集的两个性质:
(1)互斥规则
如果规则集R中不存在两条规则被同一条记录触发,则称规则集R 中的规则是互斥的。
这个性质确保每条记录至多被R中一条规则覆盖。
(2)穷举规则
如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R是穷举覆盖。
两条性质保证数据集中的每一条记录被切仅被一条记录覆盖。
如果规则集不是穷举,那么必须田建一个默认规则来覆盖未被覆盖的记录。前件为空,后件是默认类。
如果规则集不是互斥,那么一条记录可能被多个规则覆盖。解决办法:
(1)有序规则
规则表中规则按照优先级降序排列,优先级的定义有很多种方法(覆盖率,准确率等等)。
一个有序的规则集也称为一个决策表。
(2)无序规则
允许一条测试记录触发多条分