![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘学习
黄佳俊、
to be or not to be!
热爱生活!
执着学习!
展开
-
数据挖掘两大传统算法介绍及伪代码
Apriori算法:FP-growth算法:原创 2021-11-18 19:43:29 · 462 阅读 · 0 评论 -
已知频繁项集,怎么求强规则?
发现规则我们在这里考虑的关联规则比 [AIS93b] 中的更通用,因为我们允许结果有多个项目; [AIS93b] 中的规则仅限于单个项目的结果。我们首先给出了 [AIS93b] 中算法的简单概括,然后提出了一个更快的算法。为了生成规则,对于每个大项集 l,我们找到 l 的所有非空子集;对于每个这样的子集 a,如果 support(l) 与 support(a) 的比率至少为 minconf,则我们输出形式为 a ==> (l-a) 的规则。我们考虑 l 的所有子集来生成具有多个结果的规则。由于原创 2021-11-18 19:36:57 · 1105 阅读 · 0 评论 -
数据挖掘两大经典算法(AP,FP)的优缺点
Apriori算法的优缺点优点:1) Apriori算法采用逐层搜索的迭代方法,算法简单明了,没有复杂的理论推导,也易于实现。2) 数据采用水平组织方式3)采用Apriori 优化方法4)适合事务数据库的关联规则挖掘。5)适合稀疏数据集:根据以往的研究,该算法只能适合稀疏数据集的关联规则挖掘,也就是频繁项目集的长度稍小的数据集。缺陷:1)对数据库的扫描次数过多。2) Apriori算法可能产生大量的候选项集。3)在频繁项目集长度变大的情况下,运算时间显著增加。4)采用唯一支持度原创 2021-11-18 19:35:04 · 3345 阅读 · 0 评论 -
频繁模式的增量挖掘
假设 DB 表示原数据库,s 表示最小支持度阈值,FPDB 表示 DB 中对应 s 的 频繁模式集。假设有一批新事务构成的增量数据库 db 被追加到 DB 中,U=DB ∪db 表示整个更新后的新数据库。根据相同的支持度阈值 s,如果一个模式 X 在 U 中满足 Support(X)≥s×|U|,则 X 在 U 中是频繁的。假设新的频繁模式集为 FPU。频繁模式的增量挖掘,就是通过已获得的频繁模式和更新后的数据库,按 照与原来相同的最小支持度阈值 s,高效发现新的频繁模...原创 2021-11-16 16:31:31 · 1641 阅读 · 0 评论 -
基于Apriori算法的交互挖掘算法伪代码
频繁模式的交互挖掘给定数据库 DB,假定最小支持度阈值为 s,经过一次挖掘后,得到数据库 DB 中的频繁模式集 FP。当用户对挖掘结果感到不满意时,会改变最小支持度阈 值再次进行挖掘,假设新的最小支持度阈值为 s′,新的频繁模式集为 FP′。频繁模式的交互挖掘,就是通过已获得的频繁模式集 FP 和更新后的最小支 持度阈值 s′,按照与原来相同的数据库高效发现新的频繁模式集 FP′问题。注意 由于最小支持度阈值的改变,即使数据库没有变化,DB 中在 s 下的频繁模式未 ...原创 2021-11-15 21:27:30 · 1397 阅读 · 0 评论