Apriori算法原理及实现

Apriori算法

原理
从大规模数据集中寻找物品间的隐含关系被称作关联分析或关联性学习。 关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量。支持度确定规则可以用于给定数据集的频繁程度,而置信度确定YY在包含XX的交易中出现的频繁程度。 该算法的目的是发现频繁项集(支持度)和发现关联规则(可信度)。
缺点
1、循环产生的组合过多(包含无效元素形成的组合)。 2、计算量大。
知识点

知识点总结:

  1. Apriori算法包括数据处理、频繁项集生成、关联规则生成三个步骤。其中算法使用的数据集为mushroom数据集,且该算法无测试过程。

  2. 数据处理的工作原理是将mushroom中的特征区分出来,并应用到算法中。由数据集的内容可知,蘑菇的不同特征有不同的标签,而不同特征之间标签形式有所相同。为了避免在后续发现频繁项集及关联关系中造成干扰,可将所有标签转化为数字形式,再写进数据集中。

  3. 生成频繁项集的工作原理是找出所有可能是频繁项集的项集(即候选项集),然后根据最小支持度计数删选出频繁项集。通过穷举法,把每个项集作为候选项集,统计其在数据集中的出现次数,若其出现次数大于最小支持度,则为频繁项集。迭代寻找频繁项集,直至没有出现更大的频繁项集。

  4. 生成关联规则的工作原理是将根据最小可信度,在所有频繁集中找出符合条件的关联规则。若频繁项集为二元频繁关系,则直接计算其条件概率;若频繁项集为多元频繁关系,则划分成多个子集计算其条件概率。最后记录其可信度并于最小可信度对比。

问题&解决
  1. 数据集的处理问题。
    

A1. 明确数据集中各个标签代表的内容,并将标签依次以数字标记,以免标签的互相影响。

  1.  部分关联规则缺失。
    

A2、在计算关联规则的函数中,在i>1时,rulesFromConseq()函数中并没有调用calcConf()函数计算H1的可信度,而是直接由H1生成H2,从H2开始计算关联规则——于是由元素数>3的频繁项集生成的{a, b, c, …}➞{x}形式的关联规则均缺失了。由于代码示例数据中的对H1的剪枝没有删除任何元素,结果只巧合地缺失了一层。正常情况下如果没有对H1进行过滤,直接生成H2,将给下一层带入错误的结果。解决方法:在i>1时,加入调用计算支持度函数语句。

实现代码
# -*- coding: utf-8 -*-
import numpy as np
import operator
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
import math
import time


####下载数据:
def loaddata():
    dataset = []
    file = open('C:/Users/hzt123/Desktop/Database/mush.txt')
    for line in file.readlines():
        lineArr = line.strip().split()
        dataset.append(lineArr)
    #print(dataset)
    return dataset


### 发现频繁项集所需函数:

#输入为数据集,返回大小为1的所有候选项集的集合//构建完之后要判断哪些集项没有用达到最小支持度,
#将最低要求的项集构成L1,再迭代搞出Lk,Ck。

def creatC1(dataSet):
    C1 = []
    for transaction in dataSet:           #数据集的每一行
        for item in transaction:          #每一行的每一个元素
            if not [item] in C1:          #如果不在C1就加进去
                C1.append([item])
    #print(C1,"\n")
    C1.sort()
    #print(C1)
    
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值