1基本概念
频繁模式挖掘搜索给定数据集中反复出现的联系。
典型例子:购物篮分析 该过程通过发现顾客放入他们购物篮中的商品之中的关联,分析顾客的购物习惯。
关联规则(association rule) : A => B[support = ?% ; confidence = ?%]
规则的支持度和置信度是规则兴趣度的两种度量。
2 频繁项集、闭项集和关联规则
规则 A=>B 具有支持度 s = support(A=>B) = P(A U B)
规则 A=>B 具有置信度 c = confidence(A=>B) = p (B | A)
频繁项集 : 当项集K 的相对支持度 support(A=>B) 满足 预定义的最小支持度阈值,则项集K是频繁项集。
闭项集:当项集K 不存在超项集 Y 使其具有相同的支持度。则项集K在数据集D中是闭频繁项集。
极大频繁项集(极大项集) : 项集K频繁的,且不存在超项集 Y 在数据集D中是频繁的,则K是极大频繁项集
3 频繁项集挖掘方法
- Apriori算法 : 通过限制候选产生发现频繁项集。
原理: 逐层搜索的迭代方法 利用K项集 去 探索 K+1 项集。没找出一个频繁项集 Li 需要一次数据库的完整扫描
先验规则:频繁项集的所有没空子集一定是频繁的。
举例 由L1 找到 L2
步骤(1) 连接步:
通过L1与自身连接 产生候选K项集的集合。该集合为Ck。 设l1、l2 是L1中的项集,记号 li[j]表示 li的第j项。
为了有效地实现Apriori算法假定事务或项集中的项按字典序排序。