数据挖掘——关联规则分析(二)Apriori算法

Apriori算法

1、Apriori算法最早是Agrawal和Srikant在1996年提出的,后经不断完善,已成为数据挖掘中简单关联分析的核心算法。

2、为克服简单搜索可能产生大量无效规则,计算效率低下,且在大样本下甚至可能无法实现的问题,Apriori算法包括如下两大部分: 第一,搜索频繁项集。 第二,依据频繁项集产生关联规则。

搜索频繁项集

1、频繁项集:支持度不低于用户设定最小支持度阈值的项集。

2、频繁项集的性质:
     性质1:频繁项集的子集必为频繁项集。
     性质2:非频繁项集的超集一定是非频繁的。

3、寻找频繁项集

 

关联规则的生成

1、从频繁项集中产生所有关联规则,选择置信度大于用户指定最小值置信度阈值的关联规则,组成有效规则集合。

2、候选规则:If {A,B,C} is a frequent itemset, 候选规则如下: AB → C, AC → B, BC → A A → BC, B → AC, C → AB

3、如果 |Y| = k(即Y中有k项), 那么会有 2k– 2 个候选关联规则 ( 减去的两个为:Y → 空集 and 空集 → Y)
      例:L3={2 3 5},则可以产生 2^3 - 2 = 6 个候选关联规则(见下图)

4、例:(用上面寻找频繁项集的结果L3={2,3,5})设最小置信度为80%

 

 

第1行,23→5,含有23的有2个,含有235的有2个,则置信度为2/2 = 100%
第2行,2→35,含有2的有3个,含有35的有2个,则置信度为2/3 = 67%
以此类推。。。
最后满足条件的只有23→5,35→2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值