规则提取介绍

  1. 算法简介

      基于规则的分类器是使用一组"if...then..."规则来对记录进行分类的技术。

      模型的规则用析取范式 R =(r1 ∨ r2 ∨ ••• ∨ rk)表示,其中R称作规则集,ri 是分类规则或析取项。

      每一个分类规则可以表示为如下形式:

    ri:(条件i)→yi

    规则左边成为规则前件或前提。它是属性测试的合取:

    条件i=(A1 op v1)∧(A1 op v1)∧•••∧(A1 op v1)

    其中(Aj,vj)是属性-值对,op是比较运算符,取自集合{=,≠,﹤,﹥,≦,≧}。每一个属性测试(Aj op vj)称为一个合取项。规则右边称为规则后件,包含预测类yi。

      如果规则r的前件和记录x的属性匹配,则称r覆盖x。当r覆盖给定的记录时,称r被激发或触发。

      分类规则的质量可以用覆盖率(coverage)和准确率(accuracy)来度量。给定数据集D和分类规则 r:A→y,规则的覆盖率定义为D中触发规则r的记录所占的比例。准确率或置信因子定义为触发r的记录中类标号等于y的记录所占的比例。

    Coverage(r)= |A| / |D|

    Accuracy(r)= |A∩y| / |A|

    其中|A|是满足规则前件的记录数,|A∩y|是同时满足规则前件和后件的记录数,D是记录总数。

  2. 工作原理

      基于规则的分类器所产生的规则集的两个重要性质:

      互斥规则 如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则是互斥的。这个性质确保每条记录至多被R中的一条规则覆盖。

      穷举规则 如果对属性值的任意组合,R中都存在一条规则加以覆盖,则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。

    这两个性质共同作用,保证每一条记录被且仅被一条规则覆盖。如果规则集不是穷举的,那么必须添加一个默认规则 rd:() → yd来覆盖那些未被覆盖的记录。默认规则的前件为空,当所有其他规则失效时触发。yd是默认类,通常被指定为没有被现存规则覆盖的训练记录的多

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值