Apriori算法
1、Apriori算法最早是Agrawal和Srikant在1996年提出的,后经不断完善,已成为数据挖掘中简单关联分析的核心算法。
2、为克服简单搜索可能产生大量无效规则,计算效率低下,且在大样本下甚至可能无法实现的问题,Apriori算法包括如下两大部分: 第一,搜索频繁项集。 第二,依据频繁项集产生关联规则。
搜索频繁项集
1、频繁项集:支持度不低于用户设定最小支持度阈值的项集。
2、频繁项集的性质:
性质1:频繁项集的子集必为频繁项集。
性质2:非频繁项集的超集一定是非频繁的。
3、寻找频繁项集
关联规则的生成
1、从频繁项集中产生所有关联规则,选择置信度大于用户指定最小值置信度阈值的关联规则,组成有效规则集合。
2、候选规则:If {A,B,C} is a frequent itemset, 候选规则如下: AB → C, AC → B, BC → A A → BC, B → AC, C → AB
3、如果 |Y| = k(即Y中有k项), 那么会有 2k– 2 个候选关联规则 ( 减去的两个为:Y → 空集 and 空集 → Y)
例:L3={2 3 5},则可以产生 2^3 - 2 = 6 个候选关联规则(见下图)
4、例:(用上面寻找频繁项集的结果L3={2,3,5})设最小置信度为80%
第1行,23→5,含有23的有2个,含有235的有2个,则置信度为2/2 = 100%
第2行,2→35,含有2的有3个,含有35的有2个,则置信度为2/3 = 67%
以此类推。。。
最后满足条件的只有23→5,35→2