Apriori算法和FP-树算法

最新推荐文章于 2023-01-07 18:27:55 发布

小木屑

最新推荐文章于 2023-01-07 18:27:55 发布

阅读量2.2k

点赞数

分类专栏：数据挖掘 Apriori算法 FP-树算法文章标签：数据挖掘算法 Apriori算法 FP-树算法

本文链接：https://blog.csdn.net/xtsylc/article/details/22827261

版权

数据挖掘同时被 3 个专栏收录

6 篇文章 1 订阅

订阅专栏

Apriori算法

1 篇文章 0 订阅

订阅专栏

FP-树算法

1 篇文章 0 订阅

订阅专栏

Apriori算法

Ariori算法利用频繁项集性质的先验知识（prior knowledge），通过逐层搜索的迭代方法，即将K-项集用于探查(k+1)-项集，来穷尽数据集中的所有频繁项集。

先找到频繁1-项集集合L1，然后用L1找到频繁2-项集集合L2，接着用L2找到L3，知道找不到频繁K-项集，找每个频繁项集需要一次数据库扫面。

Apriori性质：频繁项集的所有非空子集也必须是频繁的。（A∪B模式不可能比A更频繁的出现）

Apriori算法主要有连接和剪枝两个操作。

下面看一个例子分析：

该例子中一共四条记录，我们通过对这些记录的探查来找出哪几种物品是被频繁的一起购买的（即那些物品之间存在相关性）。假设要求最小支持计数为2（50%）。

我们是计算L1，由L1得到L2，由L2得到L3，一直计算下去由L_k-1得到L_k，直到找不到频繁的K-项集为止（操作步骤依次为连接，剪枝，扫描数据库）

第一步：通过对数据库扫描，计算所有的频繁1-项集（对每个物品出现次数进行累计计数），扫描之后得到C1。其中{D}不满足最小支持计数，我们直接把{D}删除掉（因为D只出现一次，我们也知道任何包含D的集和的出现次数不可能超过一次，这也是Apriori性质）

第二步：如何由L1计算L2，我们根据Apriori算法的两个步骤，连接和剪枝来计算。首先看连接，连接需要前面的K-1个元素相同，而此时L1中每一项都只有一个元素，因此每一个元素都满足条件，于是每一个都可以互相连接（自由组合即可，其中{A，B}和{B，A}是相等的，组合结果和次序无关），可以由此得到C2；

那么C2用不用剪枝呢？剪枝的目的是检查任何K-1 个项集是不是在L_k-1当中，此时显然不需要，C2当中的K-1项集也就是1-项集肯定是来自于L1当中的。此时C2当中包含了所有频繁二项集，但不能说每一个项集都是频繁的。

我们必须通过扫描数据库来确定是否频繁。扫描之后，删掉不满足最小支持度的成员得到L2。

第三步：如何由L2得到L3，依然根据Apriori算法，首先进行连接。C3通过L2和L2中每一项进行连接得到，我们知道互相连接的条件是前面K-1个元素相同，则C3={{A,B,C}，{A,C,E}，{B,C,E}}。此时我们认为所有的频繁三项集都包含在C3中，但不能说每一个项集都是频繁的。在进行数据库扫描确定其是否是频繁的之前，我们先进行下满的操作（以便减少计算量）

此时我们使用Apriori性质剪枝：频繁项集的所有子集必须是频繁的，对于候选项C3，我们可以删除其子集为非频繁的选项：