本文介绍数据挖掘中关联分析的基本概念与基本术语。
基本概念与术语
1. 事务:
一条数据也叫一条事务(transaction),数据的ID即事务的ID,简写为TID,表6-1是购物篮事务的例子,可以理解为顾客的购物记录。
2. 二元表示 (这个术语暂时不理解也没关系)
如表6-2所示,每行对应一个事务,每一列对应一个项。
项用二元变量表示:如果项在事务中出现,则它的值是1,否则为0。
因为通常认为项在事务中出现比不出现更重要,所以项是非对称(asymmetric)二元变量。
3. 关联分析(association analysis):
用于发现隐藏在大型数据之中的有意义的联系。
所发现的联系可以用关联规则(association rule)或者频繁项集表示。
表6-1可以提取出如下规则:
{尿布} → {啤酒}
表示尿布和啤酒之间存在着很强的联系,因为很多购买尿布的顾客也购买了啤酒。
4. 项集和支持度计数
令 I = { i 1 , i 2 , … , i d } I=\{i_1, i_2, …, i_d\} I={ i1,i2