GSP Algorithm: Sequence Mining.

小do在努力

于 2014-12-19 21:49:17 发布

阅读量5.9k

点赞数 3

分类专栏：【Data Mining】文章标签： Data Mining Sequence Mining GSP algorithm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zone_programming/article/details/42032309

版权

本文详细介绍了GSP算法，一种用于序列挖掘的方法。它在Apriori算法基础上引入时间约束、时间窗口大小和分类标准。算法主要包括候选集生成和计算、分类等步骤，并通过倒排索引和哈希树优化。文章还提供了算法实现的详细流程，包括数据读入、倒排索引创建、频繁项集生成等，并展示了在Ubuntu下的编译和运行示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考论文:

Srikant R, Agrawal R.Mining sequential patterns: Generalizations and performance improvements[M].Springer Berlin Heidelberg, 1996.

1. 参考论文描述:

Srikant R, Agrawal R. 提出的算法，在原有aporiori的基础上，引入了3个新的概念来定义频繁模式子序列：

1）加入时间约束，使得原有的aporiori关注的连续变成了只要满足min_gap和max_gap约束的序列，都算是连续的。

2）加入time_window_size。使得transaction有新的定义。只要在window_size内的item，都可以认为是在同一个itemset。

3）加入分类标准。

本文的GSP算法实现步骤如下：

1）候选集生成

a) 合并阶段： 2个subsequence s1和s2能够合并的标准是，去掉s1中的第一个item，去掉s2中的最后一个item，若此时s1和s2相同，则可以对s1和s2进行合并，即将s2中的最后一个item加入到s1中，其中最后一个item是否为合并在原来s1的最后一个itemset，还是自成一个新的itemset，取决于s2的最后一个item是否原来就是一个单独的itemset。

b) 剪枝阶段：不频繁子序列的超集也不频繁。

2）候选集计算

a) 减少候选集检验是否满足的个数：在这，使用到了哈希树，即将序列中的第p个item映射在第p层上。然后按照候选集进行检查。

b) 检查语料库中是否有满足要求的特定子序列：此处用到了倒排记录表，而倒排记录表的ID可以是item，也可以是transaction-time。简要步骤就是，首先找到第一个itemset，记录时间，然后对于第二个</

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。