基本概念
-
I是一个项目集合,事务数据库D是由一系列具有唯一标识TID的事务组成,每个事务t都对应I上的一个子集
-
支持度:项目集I1在数据集D上的支持度是包含I1的事务在D中所占的百分比
-
频繁项目集:对项目集I和事务数据库D,T中所有满足用户指定的最小支持度的项目集,即大于或等于minsupport的I的非空子集
-
最大频繁项目集:在频繁项目集中挑出所有不被其他元素包含的频繁项目集!!
-
规则的可信度:包含I1,I2的事务数与包含I1的事务数之比(confidencex->(l-x))=support(l)-support(x1)
-
强关联规则:D在I上满足最小支持度和最小信任度的关联规则
关连规则挖掘问题可以划分成两个子问题:
- 发现频繁项目集
- 生成关联规则
下面看一个经典例题:
解题过程: