Apriori算法
知识点总结:
-
Apriori算法包括数据处理、频繁项集生成、关联规则生成三个步骤。其中算法使用的数据集为mushroom数据集,且该算法无测试过程。
-
数据处理的工作原理是将mushroom中的特征区分出来,并应用到算法中。由数据集的内容可知,蘑菇的不同特征有不同的标签,而不同特征之间标签形式有所相同。为了避免在后续发现频繁项集及关联关系中造成干扰,可将所有标签转化为数字形式,再写进数据集中。
-
生成频繁项集的工作原理是找出所有可能是频繁项集的项集(即候选项集),然后根据最小支持度计数删选出频繁项集。通过穷举法,把每个项集作为候选项集,统计其在数据集中的出现次数,若其出现次数大于最小支持度,则为频繁项集。迭代寻找频繁项集,直至没有出现更大的频繁项集。
-
生成关联规则的工作原理是将根据最小可信度,在所有频繁集中找出符合条件的关联规则。若频繁项集为二元频繁关系,则直接计算其条件概率;若频繁项集为多元频繁关系,则划分成多个子集计算其条件概率。最后记录其可信度并于最小可信度对比。
-
数据集的处理问题。
A1. 明确数据集中各个标签代表的内容,并将标签依次以数字标记,以免标签的互相影响。
-
部分关联规则缺失。
A2、在计算关联规则的函数中,在i>1时,rulesFromConseq()函数中并没有调用calcConf()函数计算H1的可信度,而是直接由H1生成H2,从H2开始计算关联规则——于是由元素数>3的频繁项集生成的{a, b, c, …}➞{x}形式的关联规则均缺失了。由于代码示例数据中的对H1的剪枝没有删除任何元素,结果只巧合地缺失了一层。正常情况下如果没有对H1进行过滤,直接生成H2,将给下一层带入错误的结果。解决方法:在i>1时,加入调用计算支持度函数语句。
# -*- coding: utf-8 -*-
import numpy as np
import operator
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
import math
import time
####下载数据:
def loaddata():
dataset = []
file = open('C:/Users/hzt123/Desktop/Database/mush.txt')
for line in file.readlines():
lineArr = line.strip().split()
dataset.append(lineArr)
#print(dataset)
return dataset
### 发现频繁项集所需函数:
#输入为数据集,返回大小为1的所有候选项集的集合//构建完之后要判断哪些集项没有用达到最小支持度,
#将最低要求的项集构成L1,再迭代搞出Lk,Ck。
def creatC1(dataSet):
C1 = []
for transaction in dataSet: #数据集的每一行
for item in transaction: #每一行的每一个元素
if not [item] in C1: #如果不在C1就加进去
C1.append([item])
#print(C1,"\n")
C1.sort()
#print(C1)