Apriori算法原理及实现

最新推荐文章于 2024-05-18 15:53:33 发布

马克波罗的鸡腿

最新推荐文章于 2024-05-18 15:53:33 发布

阅读量2.3k

点赞数 3

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/weixin_43845795/article/details/96185069

版权

Apriori算法

原理从大规模数据集中寻找物品间的隐含关系被称作关联分析或关联性学习。关联规则的强度可以用它的支持度（support）和置信度（confidence）来度量。支持度确定规则可以用于给定数据集的频繁程度，而置信度确定YY在包含XX的交易中出现的频繁程度。该算法的目的是发现频繁项集（支持度）和发现关联规则（可信度）。缺点 1、循环产生的组合过多（包含无效元素形成的组合）。 2、计算量大。知识点

知识点总结：

Apriori算法包括数据处理、频繁项集生成、关联规则生成三个步骤。其中算法使用的数据集为mushroom数据集，且该算法无测试过程。
数据处理的工作原理是将mushroom中的特征区分出来，并应用到算法中。由数据集的内容可知，蘑菇的不同特征有不同的标签，而不同特征之间标签形式有所相同。为了避免在后续发现频繁项集及关联关系中造成干扰，可将所有标签转化为数字形式，再写进数据集中。
生成频繁项集的工作原理是找出所有可能是频繁项集的项集（即候选项集），然后根据最小支持度计数删选出频繁项集。通过穷举法，把每个项集作为候选项集，统计其在数据集中的出现次数，若其出现次数大于最小支持度，则为频繁项集。迭代寻找频繁项集，直至没有出现更大的频繁项集。
生成关联规则的工作原理是将根据最小可信度，在所有频繁集中找出符合条件的关联规则。若频繁项集为二元频繁关系，则直接计算其条件概率；若频繁项集为多元频繁关系，则划分成多个子集计算其条件概率。最后记录其可信度并于最小可信度对比。

问题&解决

```
数据集的处理问题。
```

A1. 明确数据集中各个标签代表的内容，并将标签依次以数字标记，以免标签的互相影响。

```
 部分关联规则缺失。
```

A2、在计算关联规则的函数中，在i>1时，rulesFromConseq()函数中并没有调用calcConf()函数计算H1的可信度，而是直接由H1生成H2，从H2开始计算关联规则——于是由元素数>3的频繁项集生成的{a, b, c, …}➞{x}形式的关联规则均缺失了。由于代码示例数据中的对H1的剪枝没有删除任何元素，结果只巧合地缺失了一层。正常情况下如果没有对H1进行过滤，直接生成H2，将给下一层带入错误的结果。解决方法：在i>1时，加入调用计算支持度函数语句。

实现代码

# -*- coding: utf-8 -*-
import numpy as np
import operator
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
import math
import time


####下载数据：
def loaddata():
    dataset = []
    file = open('C:/Users/hzt123/Desktop/Database/mush.txt')
    for line in file.readlines():
        lineArr = line.strip().split()
        dataset.append(lineArr)
    #print(dataset)
    return dataset


### 发现频繁项集所需函数：

#输入为数据集，返回大小为1的所有候选项集的集合//构建完之后要判断哪些集项没有用达到最小支持度，
#将最低要求的项集构成L1，再迭代搞出Lk，Ck。

def creatC1(dataSet):
    C1 = []
    for transaction in dataSet:           #数据集的每一行
        for item in transaction:          #每一行的每一个元素
            if not [item] in C1:          #如果不在C1就加进去
                C1.append([item])
    #print(C1,"\n")
    C1.sort()
    #print(C1)

最低0.47元/天解锁文章

马克波罗的鸡腿

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Apriori算法原理及实现

Apriori算法原理从大规模数据集中寻找物品间的隐含关系被称作关联分析或关联性学习。关联规则的强度可以用它的支持度（support）和置信度（confidence）来度量。支持度确定规则可以用于给定数据集的频繁程度，而置信度确定YY在包含XX的交易中出现的频繁程度。该算法的目的是发现频繁项集（支持度）和发现关联规则（可信度）。...
复制链接

扫一扫

专栏目录