GSP算法在数据挖掘中的应用

文章介绍了序列模式挖掘的基本概念,重点阐述了GSP算法如何考虑时间限制、滑动时间窗口和分类限制,以及在处理邻接子序列和广义序列模式时的改进。通过实例演示,展示了这些方法如何增强模式挖掘的有效性和实用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一:基本概念介绍

序列模式挖掘:指挖掘相对时间或其他模式出现频率高的模式

序列模式挖掘的动机:大型连锁超市的交易数据有一系列的用户事物数据库。每一条记录包括用户的ID,事物发生的时间和事物涉及的项目。如果能够在其中挖掘涉及事物间关联关系的模式,即用户几次购买行为间的联系,可以采用更有针对性的营销措施。

序列:(sequence) 以SID表示,一个序列即是一个完整的信息流

序列符号化表示:序列是不同项目集的有序排列。序列s可以表示为s = <s1,s2,s3,…,sl>, sj(1<= j <= l)为项目集(itemset),也称为序列s的元素

序列的长度:序列的元素可以表示为(x1,x2,x3,…,xm),xk (1<= k <= m)为不同的项目。一个序列中所包含的所有项的个数称为序列的长度

项目:(item) 序列中最小组成单位的集合。e g: {A,B,C}.

事件:(event)通常用时间戳标志,标识事件的前后关系,又叫itemset.是item的集合

项目集:(itemset)是各种项目组成的集合

k-频繁序列:如果频繁序列项目个数为K,称为k频繁序列。eg:<(面包,苹果)> 为2频繁序列

序列模式:一个用户在不同时间点的交易记录就构成了一个购买序列

【注意:易错之处】
【注意一:】:k频繁序列:频繁序列中项目的个数为k;(是项目的个数,不是项目集)eg:<(面包,苹果)> 为2频繁序列

【注意二:】:序列的长度:频繁序列中项目集的个数为k;(是项目的个数,不是项目集)eg:<(面包,苹果)> 长度为1

【注意三:】:序列的大小:序列中物品的个数

【注意四:】:易错点:挖掘过程中的k-频繁集(Lk)或者候选k-集(Ck)指的都是【注意一和注意三】中的序列大小。

二:从一个样例入手

2.1.按照常规整理为序列
C1:<(Ringworld) (Foundation) (Ringworld Engineers , Second Foundation)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值