使用FP-growth算法发现频繁项集

文宇肃然

于 2014-09-16 17:12:57 发布

阅读量4.9k

点赞数

分类专栏：手把手教你ML机器学习算法源码全解析

本文链接：https://blog.csdn.net/wenyusuran/article/details/39319999

版权

手把手教你ML机器学习算法源码全解析专栏收录该内容

233 篇文章 ¥49.90 ¥99.00

订阅专栏

本文介绍如何使用FP-growth算法来挖掘数据中的频繁项集，通过提供的源码详细展示了算法的执行过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

源码如下：


#coding=utf-8


'''
Created on Jun 14, 2011
FP-Growth FP means frequent pattern
the FP-Growth algorithm needs: 
1. FP-tree (class treeNode)
2. header table (use dict)

This finds frequent itemsets similar to apriori but does not 
find association rules.  

@author: Peter

使用FP-growth算法发现频繁项集

FP-growth只会扫描数据集两次，它发现频繁项集的基本过程如下:
    (1)构建FP树
    (2)从FP树中挖掘频繁项集

                            FP-growth算法
优点:一般要快于Apriorio
缺点:实现比较困难，在某些数据集上性能会下降。
适用数据类型:标称型数据。


    FP-growth算法将数据存储在一种称为FP树的紧凑数据结构中。FP代表频繁模式(Frequent
Pattern )。一棵FP树看上去与计算机科学中的其他树结构类似，但是它通过链接(link)来连接相
似元素，被连起来的元素项可以看成一个链表。


    同搜索树不同的是，一个元素项可以在一棵FP树中出现多次。FP树会存储项集的出现频率，
而每个项集会以路径的方式存储在树中。存在相似元素的集合会共享树的一部分。只有当集合之

了解本专栏