关联规则(association rule)是数据中所蕴含的一类重要规律。关联规则挖掘的目标是在数据项目中找出所有的并发关系(cooccurrence relationships),这种关系也称为关联(association)。关联规则挖掘的经典应用是购物篮(Market Basket), 关联规则挖掘并没有考虑客户购买商品时的顺序。
在介绍关联规则挖掘算法前,我们先了解一些相关的概念。
关联规则的基本概念
关联规则挖掘问题通常可以表述为:I={i1, i2, …, im}是一个项目(Item)集合,T={t1,t2, …, tn} 是一个事务(Transaction)集合,其中每个事务ti是一个项目集合, 并且满足ti属于I。
一个关联规则是一个如下形式蕴含的关系X—> Y, 其中X是I的真子集,Y也是I的真子集,并且X∩Y=Ф, X 或 Y是一个项目的集合, 称作项集(ItemSet),并且X为前件,Y为后件。
如果项集X是事务T的子集,X在T中的支持计数(表示为X.count)是T中包含X的事务数