一:基本概念介绍
序列模式挖掘:指挖掘相对时间或其他模式出现频率高的模式
序列模式挖掘的动机:大型连锁超市的交易数据有一系列的用户事物数据库。每一条记录包括用户的ID,事物发生的时间和事物涉及的项目。如果能够在其中挖掘涉及事物间关联关系的模式,即用户几次购买行为间的联系,可以采用更有针对性的营销措施。
序列:(sequence) 以SID表示,一个序列即是一个完整的信息流
序列符号化表示:序列是不同项目集的有序排列。序列s可以表示为s = <s1,s2,s3,…,sl>, sj(1<= j <= l)为项目集(itemset),也称为序列s的元素
序列的长度:序列的元素可以表示为(x1,x2,x3,…,xm),xk (1<= k <= m)为不同的项目。一个序列中所包含的所有项的个数称为序列的长度
项目:(item) 序列中最小组成单位的集合。e g: {A,B,C}.
事件:(event)通常用时间戳标志,标识事件的前后关系,又叫itemset.是item的集合
项目集:(itemset)是各种项目组成的集合
k-频繁序列:如果频繁序列项目个数为K,称为k频繁序列。eg:<(面包,苹果)> 为2频繁序列
序列模式:一个用户在不同时间点的交易记录就构成了一个购买序列
【注意:易错之处】
【注意一:】:k频繁序列:频繁序列中项目的个数为k;(是项目的个数,不是项目集)eg:<(面包,苹果)> 为2频繁序列
【注意二:】:序列的长度:频繁序列中项目集的个数为k;(是项目的个数,不是项目集)eg:<(面包,苹果)> 长度为1
【注意三:】:序列的大小:序列中物品的个数
【注意四:】:易错点:挖掘过程中的k-频繁集(Lk)或者候选k-集(Ck)指的都是【注意一和注意三】中的序列大小。
二:从一个样例入手
2.1.按照常规整理为序列
C1:<(Ringworld) (Foundation) (Ringworld Engineers , Second Foundation)