数据挖掘实验报告：Apriori算法实现

刷题致富

于 2021-08-12 22:06:15 发布

阅读量5.8k

点赞数 10

文章标签：数据挖掘 python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44616879/article/details/119655039

版权

本文介绍了Apriori算法的基本原理和实现步骤，包括频繁项集挖掘和关联规则生成。通过Python代码展示了Apriori算法在数据挖掘实验中的具体应用，最终得出实验结果。

摘要由CSDN通过智能技术生成

数据挖掘实验报告

实验一：Apriori算法实现

一、Apriori算法简介

Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。A priori在拉丁语中指"来自以前"。当定义问题时，通常会使用先验知识或者假设，这被称作"一个先验"（a priori）。Apriori算法的名字正是基于这样的事实：算法使用频繁项集性质的先验性质，即频繁项集的所有非空子集也一定是频繁的。Apriori算法使用一种称为逐层搜索的迭代方法，其中k项集用于探索 $(k + 1)$ 项集。首先，通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合。该集合记为 $L_1$ 。然后，使用 $L_1$ 找出频繁2项集的集合 $L_2$ ，使用 $L_2$ 找出 $L_3$ ，如此下去，直到不能再找到频繁k项集。每找出一个 $L_k$ 需要一次数据库的完整扫描。Apriori算法使用频繁项集的先验性质来压缩搜索空间。

二、基本概念

项与项集：设 $itemset={item_1, item_2, …, item_m}$ 是所有项的集合，其中， $item_k,(k=1,2,…,m)$ 称为项。项的集合称为项集 $（ i t e m s e t ）$ ，包含k个项的项集称为k项集 $(k - i t e m s e t)$ 。
事务与事务集：一个事务T是一个项集，它是itemset的一个子集，每个事务均与一个唯一标识符Tid相联系。不同的事务一起组成了事务集D，它构成了关联规则发现的事务数据库。
关联规则：关联规则是形如 $A\Rightarrow B$ 的蕴涵式，其中A、B均为 $i t e m s e t$ 的子集且均不为空集，而A交B为空。
支持度（support）：关联规则的支持度定义为
$support(A\Rightarrow B)=P(A \cup B)$
其中 $\cup B)$ 表示事务包含集合A和B的并的概率。
置信度（confidence）：关联规则的置信度定义为：

最低0.47元/天解锁文章

关注

10
点赞
踩
71

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘实验报告：Apriori算法实现

数据挖掘实验报告姓名：黄礼捷班级：电信中英1801班学号：U201815246实验一：Apriori算法实现一、Apriori算法简介 Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。A priori在拉丁语中指"来自以前"。当定义问题时，通常会使用先验知识或者假设，这被称作"一个先验"（a priori）。Apriori算法的名字正是基于这样的事实：算法使用频繁项集性质的先验性质，即频繁项集的所有非空子集也一定是频繁的。Apriori算法使用一种称为逐层搜索的迭代方法，其中
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。