15.1 基本概念

15.1 基本概念

  • 机器学习中的规则(rule)通常是指语义明确,能描述数据分布所隐含的客观规律或者是领域概念,可写作“若……则……”形式的逻辑规则。“规则学习”(rule learning)是从训练数据中学习出一组能用于对未见实例进行判别的规则。
  • 形式化的看,一条规则形如:
    • 结果 👈 f1 ∩ f2 ∩ f3 ∩ f4
  • 其中逻辑蕴含符号 👈右边部分称作 规则体,表示该条规则的前提,左边部分称为“规则头”,表示该条规则的结果。规则体是由逻辑文字 fk 组成的合取式,其中合取符号 ∩ 用来表示“并且”。每个文字 fk都是对示例属性进行检验的布尔表达式,例如色泽 = 乌黑或者是非(根蒂=硬挺)。L是规则体中文字的个数,称为规则的长度。规则头中的结果同样也是逻辑文字,一般用来表示所判别的目标类别或者是概念。例如”好瓜“,这样的逻辑规则也被称作为if-then规则
  • 与神经网络,支持向量机这样的黑箱模型相比,规则学习具有更好的了解释性,能够使得用户直观的对判别过程有所了解,另一方面,数理逻辑具有极强的表达能力,绝大多数人类知识都能通过数理逻辑进行简洁的刻画和表达,例如”父亲的父亲是爷爷“,这样的知识不容易用函数表达式进行表述,而用一阶逻辑则可以方便的写为YY (X,Y)👈 父亲(X,Z) ∩ 父亲(Z,Y)。因此,规则学习能更自然的在学习过程中引入领域知识。此外,逻辑规则的抽象描述能力在处理一些高度复杂的AI任务时具有明显的优势,例如在自然问答系统中可能会遇到非常多,甚至无穷多的可能答案,此时如果能够基于逻辑规则进行抽象表述或者是推理,则将带来极大的便利。
  • 假设我们从西瓜集学得规则集合R:
    • 规则一:好瓜 👈 (根蒂 = 蜷缩) ∩ (脐部 = 凹陷)
    • 规则二:不是好瓜 👈 (纹理 = 模糊)
  • 规则1的长度为2,它通过判断两个逻辑文字的赋值来对实例进行判别。复合该规则的样本被称为该规则的覆盖(cover)。需要注意的是:被规则一覆盖的样本是好瓜,但是没有被规则一覆盖的瓜未必不是好瓜。只有被规则二这样以 非好瓜为头的规则覆盖才不是好瓜。
  • 显然,规则集合中的每条规则都可以看作一个子模型,规则集合是这些子模型的一个集成。当同一个实例被判别结果不同的多条规则覆盖时,称发生了冲突,解决冲突的办法称为冲突消除。常用的冲突消除的策略有投票法,排序法,元规则法。投票法是将判别相同的规则数最多的结果作为最终的结果。排序法是在规则的几何上定义一个顺序,在发生冲突的时候使用排序最前的规则,相应的规则学习过程称为带序规则学习或者是优先级规则学习。元规则法是根据领域知识事先设定了一些元规则,即关于规则的规则。例如,发生冲突时使用最小的规则,然后根据元规则的指导来使用规则集
  • 此外,从训练集学到的规则集合也许不能覆盖所有可能的未见实例,例如前述规则集合R 无法对根蒂 = 蜷缩脐部 = 稍凹 ∩ 纹理 = 清晰的实例进行判别。这样的情况在属性数目很多的时候常出现。因此,规则学习算法通常设置一条默认规则,由他来处理规则集合未被覆盖的样本。例如为 R 增加一条默认的规则:未被1,2覆盖的都不是好瓜
  • 从形式语言表达能力而言,规则可以分为两类:命题规则和一阶规则。前者是原子命题和逻辑连接词与,或,非,和蕴含构成的简单陈述句。例如:规则集R 就是一个命题规则集,根蒂 = 蜷缩,脐部 = 稍凹 都是原子命题。
  • 后者的基本成分是能够描述事物的属性和关系的,原子公式,例如表示父子关系的谓词,父亲(X,Y)就是原子公式,再如表示加一操作。
  • 显然,一阶规则能够表达复杂的关系,因此也被称为关系型规则。以西瓜数据为例,若我们简单的把属性当作谓词来定义实例和属性值之间的关系,则命题规则集R可以改写为一阶规则集R’
    • 规则一:好瓜(X) 👈 根蒂(X,蜷缩) ∩ 脐部(X,凹陷)
    • 规则二: 非好瓜(X) 👈 纹理(X,模糊)
  • 从形式语言系统的角度来看,命题规则是一阶规则的特例,因此一阶规则的学习比命题规则要复杂的多。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值