一:基础概念介绍
序列模式挖掘:指挖掘相对时间或其他模式出现频率高的模式
序列模式挖掘的动机:大型连锁超市的交易数据有一系列的用户事物数据库。每一条记录包括用户的ID,事物发生的时间和事物涉及的项目。如果能够在其中挖掘涉及事物间关联关系的模式,即用户几次购买行为间的联系,可以采用更有针对性的营销措施。
序列:(sequence) 以SID表示,一个序列即是一个完整的信息流
序列符号化表示:序列是不同项目集的有序排列。序列s可以表示为s = <s1,s2,s3,.....,sl>, sj(1<= j <= l)为项目集(itemset),也称为序列s的元素
序列的长度:序列的元素可以表示为(x1,x2,x3,....,xm),xk (1<= k <= m)为不同的项目。一个序列中所包含的所有项的个数称为序列的长度
项目:(item) 序列中最小组成单位的集合。e g: {A,B,C}.
事件:(event)通常用时间戳标志,标识事件的前后关系,又叫itemset.是item的集合
项目集:(itemset)是各种项目组成的集合
k-频繁序列:如果频繁序列项目个数为K,称为k频繁序列。eg:<面包,苹果> 为2频繁序列
序列