15.1 基本概念

最新推荐文章于 2024-05-13 11:50:38 发布

pjiang000

最新推荐文章于 2024-05-13 11:50:38 发布

阅读量113

点赞数

分类专栏：机器学习文章标签：机器学习人工智能 python 算法深度学习

本文链接：https://blog.csdn.net/weixin_44412864/article/details/113822543

版权

机器学习专栏收录该内容

48 篇文章 3 订阅

订阅专栏

15.1 基本概念

机器学习中的规则（rule）通常是指语义明确，能描述数据分布所隐含的客观规律或者是领域概念，可写作“若……则……”形式的逻辑规则。“规则学习”（rule learning）是从训练数据中学习出一组能用于对未见实例进行判别的规则。
形式化的看，一条规则形如：
- 结果 👈 f1 ∩ f2 ∩ f3 ∩ f4
其中逻辑蕴含符号 👈右边部分称作规则体，表示该条规则的前提，左边部分称为“规则头”，表示该条规则的结果。规则体是由逻辑文字 fk 组成的合取式，其中合取符号 ∩ 用来表示“并且”。每个文字 fk都是对示例属性进行检验的布尔表达式，例如色泽 = 乌黑或者是非（根蒂=硬挺）。L是规则体中文字的个数，称为规则的长度。规则头中的结果同样也是逻辑文字，一般用来表示所判别的目标类别或者是概念。例如”好瓜“，这样的逻辑规则也被称作为if-then规则
与神经网络，支持向量机这样的黑箱模型相比，规则学习具有更好的了解释性，能够使得用户直观的对判别过程有所了解，另一方面，数理逻辑具有极强的表达能力，绝大多数人类知识都能通过数理逻辑进行简洁的刻画和表达，例如”父亲的父亲是爷爷“，这样的知识不容易用函数表达式进行表述，而用一阶逻辑则可以方便的写为YY （X,Y）👈 父亲（X,Z） ∩ 父亲（Z,Y）。因此，规则学习能更自然的在学习过程中引入领域知识。此外，逻辑规则的抽象描述能力在处理一些高度复杂的AI任务时具有明显的优势，例如在自然问答系统中可能会遇到非常多，甚至无穷多的可能答案，此时如果能够基于逻辑规则进行抽象表述或者是推理，则将带来极大的便利。
假设我们从西瓜集学得规则集合R：
- 规则一：好瓜 👈 （根蒂 = 蜷缩） ∩ （脐部 = 凹陷）
- 规则二：不是好瓜 👈 （纹理 = 模糊）
规则1的长度为2，它通过判断两个逻辑文字的赋值来对实例进行判别。复合该规则的样本被称为该规则的覆盖（cover）。需要注意的是：被规则一覆盖的样本是好瓜，但是没有被规则一覆盖的瓜未必不是好瓜。只有被规则二这样以非好瓜为头的规则覆盖才不是好瓜。
显然，规则集合中的每条规则都可以看作一个子模型，规则集合是这些子模型的一个集成。当同一个实例被判别结果不同的多条规则覆盖时，称发生了冲突，解决冲突的办法称为冲突消除。常用的冲突消除的策略有投票法，排序法，元规则法。投票法是将判别相同的规则数最多的结果作为最终的结果。排序法是在规则的几何上定义一个顺序，在发生冲突的时候使用排序最前的规则，相应的规则学习过程称为带序规则学习或者是优先级规则学习。元规则法是根据领域知识事先设定了一些元规则，即关于规则的规则。例如，发生冲突时使用最小的规则，然后根据元规则的指导来使用规则集
此外，从训练集学到的规则集合也许不能覆盖所有可能的未见实例，例如前述规则集合R 无法对根蒂 = 蜷缩，脐部 = 稍凹 ∩ 纹理 = 清晰的实例进行判别。这样的情况在属性数目很多的时候常出现。因此，规则学习算法通常设置一条默认规则，由他来处理规则集合未被覆盖的样本。例如为 R 增加一条默认的规则：未被1，2覆盖的都不是好瓜
从形式语言表达能力而言，规则可以分为两类：命题规则和一阶规则。前者是原子命题和逻辑连接词与，或，非，和蕴含构成的简单陈述句。例如：规则集R 就是一个命题规则集，根蒂 = 蜷缩，脐部 = 稍凹都是原子命题。
后者的基本成分是能够描述事物的属性和关系的，原子公式，例如表示父子关系的谓词，父亲（X,Y）就是原子公式，再如表示加一操作。
显然，一阶规则能够表达复杂的关系，因此也被称为关系型规则。以西瓜数据为例，若我们简单的把属性当作谓词来定义实例和属性值之间的关系，则命题规则集R可以改写为一阶规则集R’
- 规则一：好瓜(X) 👈 根蒂（X，蜷缩） ∩ 脐部（X，凹陷）
- 规则二：非好瓜（X） 👈 纹理（X，模糊）
从形式语言系统的角度来看，命题规则是一阶规则的特例，因此一阶规则的学习比命题规则要复杂的多。

pjiang000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
15.1 基本概念

15.1 基本概念机器学习中的规则（rule）通常是指语义明确，能描述数据分布所隐含的客观规律或者是领域概念，可写作“若……则……”形式的逻辑规则。“规则学习”（rule learning）是从训练数据中学习出一组能用于对未见实例进行判别的规则。形式化的看，一条规则形如：结果 ???? f1 ∩ f2 ∩ f3 ∩ f4其中逻辑蕴含符号 ????右边部分称作规则体，表示该条规则的前提，左边部分称为“规则头”，表示该条规则的结果。规则体是由逻辑文字 fk 组成的合取式，其中合取符号 ∩ 用来
复制链接

扫一扫

专栏目录