机器学习第15章-规则学习

woshiwu6666

已于 2023-01-16 22:50:52 修改

阅读量641

点赞数

文章标签：知识图谱人工智能数据挖掘

于 2023-01-11 22:32:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woshiwu6666/article/details/128652026

版权

机器学习第15章-规则学习

以下列出我觉得重要，在编码的思路中可以参考的地方

冲突消融

当一条规则的判断出现不同的结果时，解决冲突的方法

1.投票法

2.排序法

3.无规则法

序贯覆盖

生成规则过程中去除当前规则所能覆盖的数据

生成方式

自顶向下，generate then test，specialization特化，规则逐渐变长

自底向上，data-drive，generalization泛化，规则逐渐变短

剪枝优化

可以参考关联规则算法的剪枝策略

1.LRS公式。规则集合不断增长，用LRS公式观测规则集合预测的结果与实际值的差距，只有满足阈值才停止生成规则

2.REP剪枝。删除某个元素，生成不同的规则集，对比不同的规则集的预测效果，选择最后的集合进行下一轮的剪枝，直到剪枝无法提升准确率为止

3.IREP剪枝。每生成一条规则，就做一次剪枝，删除某个元素，生成不同的规则，选择最后的那条添加到规则集合当中，并且去除这条规则覆盖的数据(序贯覆盖)，继续剪枝

4.RIPPER剪枝。首先用IREP生成一个规则集合R,再用替换的规则内容和增加候选文字生成R'和R''，R和R'和R''中的内容要去重，不能有重复的。然后比较三个集合的性能，选出最好的添加到最后的规则集合当中。并且去除这个集合覆盖的数据(序贯覆盖)，继续剪枝

FOIL信息增益

是自顶向下生成规则的一种度量方式，也是一种信息增益

^中的值表示的是原规则覆盖数据集的分布情况，不带^表示的是拓展规则以后（增加候选文字），当前规则的分布情况

归纳逻辑程序设计

也称作最小一般泛化，是一种自底向上的方法

对规则逐步泛化，常量替换为逻辑变量，或者删除规则中的某个条件

值的借鉴的地方

在知识图谱中

1.可以在原规则的基础上通过一些替换谓词或者替换变量或者增删变量的操作生成规则，这样可以减少生成规则所需遍历的时间。

2.生成规则的过程中去除覆盖的数据。联想关联规则中CBA算法当中剪枝的操作

3.自顶向上和自底向下两种方式的结合

4.用FOIL信息增益评判规则拓展以后相较于原来的那条规则性能上的区别

5.对生成的规则或者规则集合进行剪枝优化

相关内容可参考西瓜书第15章

另外，可以参考这两个网页

知识图谱推理FOIL - 庚瘤君 - 博客园 (cnblogs.com)

该网页中生成负样本的思路值得参考。只能在已知两个实体的关系且确定其关系与目标谓词相悖时, 才能将这两个实体用于构建目标谓词的反例, 而不能在不知两个实体可否满足目标谓词前提下将它们来构造目标谓词的反例。

数据挖掘导论笔记5_ccyyawsl的博客-CSDN博客

该网页展示了许多规则分类当中的概念。生成规则的过程中，可以采用顺序覆盖，先生成一条规则满足部分数据，再生成其他的满足其他的数据。其中规则评估当中提出了几条公式，可以用这几条公式评估规则的质量，评估规则的信息增益。

671aa284-e3a1-4018-9364-efbba0f993b4

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习第15章-规则学习

首先用IREP生成一个规则集合R,再用替换的规则内容和增加候选文字生成R'和R''，R和R'和R''中的内容要去重，不能有重复的。每生成一条规则，就做一次剪枝，删除某个元素，生成不同的规则，选择最后的那条添加到规则集合当中，并且去除这条规则覆盖的数据(序贯覆盖)，继续剪枝。删除某个元素，生成不同的规则集，对比不同的规则集的预测效果，选择最后的集合进行下一轮的剪枝，直到剪枝无法提升准确率为止。^中的值表示的是原规则覆盖数据集的分布情况，不带^表示的是拓展规则以后（增加候选文字），当前规则的分布情况。
复制链接

扫一扫

博客等级

码龄5年

122
原创

13
点赞

48
收藏

6
粉丝

关注

私信

热门文章

分类专栏

最新评论

微机系统——数制
做而论道_CS: 所谓的补码，也是正常的数字，算不上什么码。正数，能当负数，不难理解。用不着绕那么大的一圈！你跟老外学数学，立马就掉沟里去了！
微机系统——数制
做而论道_CS: 计算机的字长，是固定的。每次计算，二进制数的位数，就是固定值。八位二进制，范围是：0000 0000 ~ 1111 1111。相当于十进制数，就是：0 ~ 255。这个 255，就可以当做－1 使用。如 27 － 1 = 26，八位机的计算，如下：　　　0001 1011 　　＋ 1111 1111 －－－－－－－－－ (进 1 ) 0001 1010 你舍弃进位，取八位的结果，就是 26。 99、255，都能当做－1 ！为什么呢？绝对不是符号位原码反码这些。而是你在计算时，舍弃了进位！也就是，减去了进位！进位是多少？　两位十进制，进位是：100 = 10^2。　八位二进制，进位是：256 = 2^8。加上 99，再舍弃进位，实际上是：　加上 99－100 = －1。加上 255，再舍弃进位，实际上是：　加上 255－256 = －1。加上 254，实际上是：加上－2。加上 253，实际上是：加上－3。。。。这些简单算法，都是小学的知识。计算机专家看不懂啊！于是就编造了：　机器数真值符号位原码反码补码取反加一符号位不变符号位也参加运算... 这些，一点 P 用都没有！
微机系统——数制
做而论道_CS: 实际上，原码反码取反加一，都是不存在的。所谓的“补码”，也是一个简单算术题目而已。对任何进制，都是适用的。你看十进制数，两位，范围是：0 ~99。这个 +99，就可以当做 “负一” 使用。如：27 + 99 = (一百) 26 　　27 － 1 = 26 只要你舍弃进位，依旧保持两位数：　减法，就能用加法来实现。　正数，也就能当成负数来使用。在计算机中舍弃进位，就可以省掉减法器了。即，简化计算机的硬件。
微机系统——数制
做而论道_CS: 计算机，虽然使用二进制数。但是，二进制数，也是数，并不是什么什么码。如果用数字表示其它信息，才能叫做“码”。如：学号门牌车牌电话性别英文汉字声音图像颜色...
微机系统——数制
做而论道_CS: 为什么会引入真值，原码，反码，补码的这个概念－－－－－－－－－因为，计算机专家不懂数学，不会做算术，不知道进位。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。