机器学习—关联规则分析之Apriori算法及其python实现



引言

  关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找到各项之间的关联关系,而这种关系并没有在数据中直接体现出来。以超市的销售数据为例,当存在很多商品时,可能的商品组合数量达到了令人望而却步的程度,这是提取关联规则的最大困难。因此各种关联规则分析算法从不同方面入手减少可能的搜索空间大小以及减少扫描数据的次数。Apriori算法是最经典的挖掘频繁项集的算法,第一次实现在大数据集上的可行的关联规则提取,其核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集。

一、一些概念

1.关联规则的一般形式
  1. 关联规则的支持度(相对支持度)
    项集A、B同时发生的概率称为关联规则的支持度(相对支持度)。 S u p p o r t ( A = > B ) = P ( A ∪ B ) Support(A=>B)=P(A∪B) Support(A=>B)=P(AB)
  2. 关联规则的置信度
    项集A发生,则项集B发生的概率为关联规则的置信度。 C o n f i d e n c e ( A = > B ) = P ( B ∣ A ) Confidence(A=>B)=P(B|A) Confidence(A=>B)=P(BA)
2.最小支持度和最小置信度
  1. 最小支持度是衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性
  2. 最小置信度是衡量置信度的一个阈值,表示关联规则的最低可靠性
  3. 强规则是同时满足最小支持度阈值和最小置信度阈值的规则
3.项集
  1. 项集是项的集合。包含 k k k个项的集合称为 k k k项集,如集合{牛奶,麦片,糖}是一个三项集
  2. 项集出现的频率是所有包含项集的事务计数,又称为绝对支持度或支持度计数
  3. 如果项集 I I I的相对支持度满足预定义的最小支持度阈值,则 I I I频繁项集。如果有 k k k项,记为 L k L_k Lk
4.支持度计数
  • 项集A的支持度计数是事务数据集中包含项集A的事务个数,简称项集的频率或计数
  • 一旦得到项集 A 、 B 和 A ∪ B A、B和A∪B ABAB的支持度计数以及所有事务个数,就可以导出对应的关联规则 A = > B A=>B A=>B B = > A B=>A B=>A,并可以检查该规则是否为强规则。
    在这里插入图片描述
    其中 N N N表示总事务个数, σ σ σ表示计数

二、Apriori算法:使用候选产生频繁项集

  Apriori算法的主要思想是找出存在于事务数据集中最大的频繁项集,再利用得到的最大频繁项集与预先设定的最小置信度阈值生成强关联规则。

1.Apriori的性质

  频繁项集的所有非空子集一定是频繁项集。根据这一性质可以得出:向不是频繁项集 I I I的项集中添加事务 A A A,新的项集 I ∪ A I∪A IA一定不是频繁项集。

2.Apriori算法实现过程

第一步:
找出所有频繁项集(支持度必须大于等于给定的最小支持度阈值),在这个过程中连接步与剪枝步相互融合,最终得到最大频繁项集 L k L_k Lk

  • 连接步
    连接步的目的是找到 K K K项集。对于给定的最小支持度阈值,分别对1项候选集 C 1 C_1 C1,剔除小于该阈值的项集得到1项频繁集 L 1 L_1 L1;下一步由 L 1 L_1 L1自身连接产生2项候选集 C 2 C_2 C2,剔除小于该阈值的项集得到2项频繁集 L 2 L_2 L2;再下一步由 L 2 和 L 1 L_2和L_1 L2L1连接产生3项候选集 C 3 C_3 C3,剔除小于该阈值的项集得到3项频繁集 L 3 L_3 L3,这样循环下去,直至由 L k − 1 和 L 1 L_{k-1}和L_1 Lk1L1连接产生 k k k项候选集 C k C_k
### 回答1: Apriori算法是一种常用的关联规则挖掘算法,用于发现数据集中项与项之间的频繁关联关系。 Apriori算法实现可以使用Python编程语言来完成。以下是一个简单的示例: 首先,需要准备一个数据集。可以用一个列表来表示数据集,每个元素都是一个集合,表示一个事务,其中每个项是数据集中的一个元素。例如,下面是一个简单的数据集: dataset = [ {'牛奶', '尿布', '啤酒'}, {'尿布', '洋葱', '洗发水', '啤酒'}, {'牛奶', '尿布', '洋葱', '啤酒'}, {'牛奶', '洋葱', '啤酒'}, {'尿布', '洗发水', '啤酒'}, ] 然后,可以使用pyfpgrowth库中的函数来实现Apriori算法。该库提供了简单且高效的算法实现。可以使用以下代码来执行算法: from pyfpgrowth import find_frequent_patterns from pyfpgrowth import generate_association_rules # 设定最小支持度 min_support = 2 # 寻找频繁项集 frequent_patterns = find_frequent_patterns(dataset, min_support) # 根据频繁项集生成关联规则 association_rules = generate_association_rules(frequent_patterns, 0.7) 这里通过设置min_support参数来控制支持度的最小值,可以根据需求进行调整。生成的关联规则可以通过设置confidence_threshold参数来控制置信度的最小值。 最后,可以打印出频繁项集和关联规则的结果: print("频繁项集:") for itemset, support in frequent_patterns.items(): print(itemset, ":", support) print("关联规则:") for antecedent, consequent, confidence in association_rules: print(list(antecedent), "->", list(consequent), ":", confidence) 这样就完成了Apriori关联规则算法Python实现。 总之,Apriori关联规则算法是一种常用的数据挖掘算法,可以使用Python的pyfpgrowth库来实现。通过设置支持度和置信度的阈值,可以发现频繁项集和关联规则。 ### 回答2: Apriori 关联规则算法是一种常用的数据挖掘算法,用于发现数据集中的频繁项集和关联规则Python中有多种库可以实现Apriori算法,例如mlxtend和apyori库。 mlxtend是一个常用的机器学习库,它提供了一个apriori函数,可以用于实现Apriori算法。在使用mlxtend库时,需要先将数据集转化为适合于算法的形式,一般为列表的列表。然后,通过调用apriori函数,并设置支持度阈值,即可得到频繁项集。 apyori是另一个常用的库,用于实现Apriori算法。它提供了一个apriori函数,可以直接对数据集进行操作。在使用apyori库时,可以通过设置支持度和置信度阈值来筛选频繁项集和关联规则。 下面是一个示例代码,展示了如何使用mlxtend和apyori库进行Apriori算法实现: 使用mlxtend库: ``` from mlxtend.frequent_patterns import apriori #构建频繁项集 frequent_itemsets = apriori(df, min_support=0.1, use_colnames=True) #基于频繁项集构建关联规则 rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.5) ``` 使用apyori库: ``` from apyori import apriori #将数据集转化为列表的列表 transactions = [['牛奶', '洋葱', '肉豆蔻', '芸豆', '鸡蛋', '酸奶'], ['鸡蛋', '洋葱', '芸豆', '肉豆蔻', '酸奶'], ['牛奶', '肉豆蔻', '芸豆', '酸奶'], ['牛奶', '芸豆', '鸡蛋', '酸奶'], ['牛奶', '洋葱', '肉豆蔻', '芸豆', '鸡蛋']] #设置支持度和置信度阈值 min_support = 0.3 min_confidence = 0.6 #运行Apriori算法并输出结果 results = list(apriori(transactions, min_support=min_support, min_confidence=min_confidence)) ``` 通过以上示例代码,我们可以很方便地使用Python实现Apriori关联规则算法。 ### 回答3: Apriori算法是一种常用的关联规则挖掘算法,用于发现数据集中项之间的频繁关联关系。它的核心思想是通过候选项集的递归产生和剪枝来寻找频繁项集。 Python提供了多种实现Apriori算法的库,其中最常用的是mlxtend库。 使用mlxtend库实现Apriori算法需要先安装该库,可以通过pip命令进行安装。 安装完毕后,可以导入mlxtend库的apriori模块。使用该模块的apriori函数可以传入数据集和最小支持度参数来进行频繁项集的挖掘和生成关联规则。 具体实现步骤如下: 1. 导入mlxtend库的apriori模块:`from mlxtend.frequent_patterns import apriori` 2. 加载数据集,可以将数据集存储为一个列表,每个元素是一条交易记录,每条交易记录是一个集合,表示该交易包含的项。 3. 调用apriori函数,传入数据集和最小支持度参数。最小支持度参数表示频繁项集在整个数据集中出现的最小比例。 具体代码如下: ```python from mlxtend.frequent_patterns import apriori # 加载数据集 dataset = [['A', 'B', 'C'], ['B', 'D'], ['C', 'D', 'E'], ['A', 'C', 'D', 'E']] # 挖掘频繁项集 frequent_itemsets = apriori(dataset, min_support=0.5) # 打印频繁项集 print(frequent_itemsets) ``` 以上代码中,待挖掘的数据集包含4条交易记录,每个交易记录是一个集合。最小支持度参数`min_support`设置为0.5,表示频繁项集在所有交易记录中至少出现一半以上。 运行上述代码,可以得到频繁项集的输出结果。 通过上述代码,我们可以在Python中使用mlxtend库的apriori函数来实现Apriori关联规则算法。使用这个函数可以方便地进行频繁项集的挖掘和生成关联规则,从而帮助我们发现数据集中的有意义的关联关系。
评论 42
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值