机器学习——Weak7.使用FP-growth算法来高效发现频繁项集

最新推荐文章于 2024-10-15 17:31:08 发布

学习语言的小怪兽

最新推荐文章于 2024-10-15 17:31:08 发布

阅读量165

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45774706/article/details/103833965

版权

本文介绍了如何使用FP-growth算法进行高效频繁项集挖掘。首先讲解了FP树的类定义及其构建过程，接着通过一个简单数据集展示了数据包装器的使用。接着，文章详细阐述了如何从FP树中找出以特定元素结尾的所有路径，并通过递归的mineTree函数实现频繁项集的发现。

摘要由CSDN通过智能技术生成

使用FP-growth算法来高效发现频繁项集

FP-growth算法
优点：一般要快于Apriori
缺点：实现比较困难，在某些数据集上性能会下降
适用数据类型：标称型数据

FP-growth的一般流程
①收集数据：使用任意方法
②准备数据：由于存储的是集合，所以需要离散数据。如果要处理连续数据，需要将它们量化为离散值
③分析数据：使用任意方法
④训练算法：构建一个FP树，并对树进行挖掘
⑤测试算法：没有测试过程
⑥使用算法：可用于识别经常出现的元素项，从而用于制定决策、推荐元素或进行预测等应用中

FP树的类定义

class treeNode:
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue
        self.count = numOccur
        self.nodeLink = None
        self.parent = parentNode      #needs to be updated
        self.children = {
   } 
    
    def inc(self, numOccur):
        self.count += numOccur
        
    def disp(self, ind=1):
        print ('  '*ind, self.name, ' ', self.count)
        for child in self.children.values():
            child.disp(ind+1)

FP树构建函数

def createTree(dataSet, minSup=1): #create FP-tree from dataset but don't mine
    headerTable = {
   }
    #go over dataSet twice
    for trans in dataSet:#first pass counts frequency of occurance
        for item in trans:
            headerTable[item] = headerTable.get(item, 0) + dataSet[trans]
    for k in headerTable.keys():  #remove items not meeting minSup