基于Mapreduce的关联规则挖掘（2）

最新推荐文章于 2024-04-23 15:52:51 发布

Joey Twan

最新推荐文章于 2024-04-23 15:52:51 发布

阅读量1k

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/weixin_44869866/article/details/106002671

版权

别问，问就是不懂专栏收录该内容

6 篇文章 0 订阅

订阅专栏

二、调研近年来基于Mapreduce的关联规则挖掘算法，并进行综述。

目前已提出的基于 Mapreduce计算模型的并行关联规则挖掘算法大多是将 Apriori、FP-Growth算法及Eclat算法三种经典算法向 Mapreduce计算模型迁移，实现并行计算。其基本思路是：利用 Mapreduce的开源实现 Hadoop作为设计和运行的平台；利用 Hadoop的分布式文件系统 HDFS进行大数据集的分布式存储；将算法的输入和输出改造成 Mapreduce计算模型要求的〈key，value〉模型；将算法的运行改造成 map和 reduce两个阶段，实现了较好的效果。

1、并行Apriori算法

２阶段并行Apriori算法较好地平衡了所需要的MapReduce任务数和中间候选项集的数量，在效率上比 1阶段、k阶段算法都有所提升。后续很多并行的Apriori算法均使用了２阶段的思想，使用局部频繁项集及两个MapReduce任务来完成挖掘任务。

对２阶段Apriori算法进行性能优化主要可以从两个方面来进行：ａ）使用比 Apriori算法性能更好的算法来挖掘得到局部频繁项集及它们的支持度计数；ｂ）使用更好的方法来减少全局候选频繁项集的数量，减轻第二阶段计算的负载。谢志明等人于2017年提出了Apriori_MMR 算法，引入了布尔矩阵的概念，将Apriori_Matrix算法移植到了MapReduce计算模型上，通过将数据分片转换为布尔矩阵，既加快了第一阶段挖掘局部频繁模式的速度，也提高了第二阶段对全局候选模式进行计数的速度，从而提高整个算法的效率。

2、并行FP-growth算法

FP-growth与Apriori算法有着根本的不同，它不产生候选项集，通过将所有事务T中的频繁项压缩成特殊的树结构，然后对树结构进行遍历直接得到频繁项集。由于FP-growth算法自身就具有的“分治”的特点，这就意味着每个计算节点可独立计算，计算节点之间不需要相互等待，也不需要相互交换数据，更适合于将其移植到MapReduce计算模型上进行分布式计算。

FP-growth算法在挖掘时需要递归构建频繁项的FP-tree，需要大量的计算资源，有很多对 FP-tree数据结构进行优化的结构，主要目的是避免递归构建 FP-tree，减少了计算量。Xun等人在２０１６年提出的算法 FiDoop，将传统算法 FIUT向 MapReduce计算模型上进行了迁移。FIUT算法摈弃了 FP-growth算法需要递归构造频繁项的条件模式基树，而是将频繁项的集合构造成 FIT-tree以提高挖掘的效率。FiDoop算法使用三个MapReduce任务来完成并行频繁项集挖掘工作，第一个任务计算得到所有频繁项的集合 FList；第二个任务将每一个事务Ｔ中的非频繁项删除，得到ｈ-项集；第三个任务将每一个ｈ-项集分解成２～Ｍ（Ｍ为ｈ的最大值）项集的集合，将相同长度的项集发送给同一个reduce任务，构造k-FIU-tree进行挖掘，最后合并得到所有的频繁项集。实验表明，当数据集的维度小于等于 30时，FiDoop算法的效率要明显高于PFP算法；但当维度增大时，FiDoop算法的效率急剧下降。为解决高维数据集的挖掘问题，Xun等人还提出了 FiDoop-HD算法，通过维度减少的方法来提高高维数据集的挖掘效率。

Joey Twan

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于Mapreduce的关联规则挖掘（2）

二、调研近年来基于Mapreduce的关联规则挖掘算法，并进行综述。目前已提出的基于 Mapreduce计算模型的并行关联规则挖掘算法大多是将 Apriori、FP-Growth算法及Eclat算法三种经典算法向 Mapreduce计算模型迁移，实现并行计算。其基本思路是：利用 Mapreduce的开源实现 Hadoop作为设计和运行的平台；利用 Hadoop的分布式文件系统 HDFS进行大数据集的分布式存储；将算法的输入和输出改造成 Mapreduce计算模型要求的〈key，value〉模型；
复制链接

扫一扫