GSP算法在数据挖掘中的应用

屈家全

于 2024-01-10 00:43:44 发布

阅读量1.4k

点赞数 18

分类专栏：随笔文章标签：算法数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_56781779/article/details/135492810

版权

文章介绍了序列模式挖掘的基本概念，重点阐述了GSP算法如何考虑时间限制、滑动时间窗口和分类限制，以及在处理邻接子序列和广义序列模式时的改进。通过实例演示，展示了这些方法如何增强模式挖掘的有效性和实用性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一：基本概念介绍
二：从一个样例入手
三论文中定义的一些细节
四：GSP算法
五.算法
六源代码及数据集等总结
七. 参考文章

一：基本概念介绍

序列模式挖掘：指挖掘相对时间或其他模式出现频率高的模式

序列模式挖掘的动机：大型连锁超市的交易数据有一系列的用户事物数据库。每一条记录包括用户的ID，事物发生的时间和事物涉及的项目。如果能够在其中挖掘涉及事物间关联关系的模式，即用户几次购买行为间的联系，可以采用更有针对性的营销措施。

序列：(sequence) 以SID表示，一个序列即是一个完整的信息流

序列符号化表示：序列是不同项目集的有序排列。序列s可以表示为s = <s1,s2,s3,…,sl>, sj(1<= j <= l)为项目集（itemset），也称为序列s的元素

序列的长度：序列的元素可以表示为（x1,x2,x3,…,xm）,xk (1<= k <= m)为不同的项目。一个序列中所包含的所有项的个数称为序列的长度

项目：(item) 序列中最小组成单位的集合。e g: {A,B,C}.

事件：（event）通常用时间戳标志，标识事件的前后关系，又叫itemset.是item的集合

项目集：（itemset）是各种项目组成的集合

k-频繁序列：如果频繁序列项目个数为K,称为k频繁序列。eg:<（面包，苹果）> 为2频繁序列

序列模式：一个用户在不同时间点的交易记录就构成了一个购买序列

【注意：易错之处】
【注意一：】：k频繁序列：频繁序列中项目的个数为k;（是项目的个数，不是项目集）eg:<（面包，苹果）> 为2频繁序列

【注意二：】：序列的长度：频繁序列中项目集的个数为k;（是项目的个数，不是项目集）eg:<（面包，苹果）> 长度为1

【注意三：】：序列的大小：序列中物品的个数

【注意四：】：易错点：挖掘过程中的k-频繁集（Lk）或者候选k-集(Ck)指的都是【注意一和注意三】中的序列大小。

二：从一个样例入手

2.1.按照常规整理为序列
C1:<(Ringworld) (Foundation) (Ringworld Engineers , Second Foundation)

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。