关联分析-Apriori

本文详细介绍了关联分析中的Apriori算法,包括其目的、基本概念、基本思想、优缺点以及代码实现。Apriori算法通过迭代方式找出频繁项集,并基于频繁项集生成强关联规则。它适用于稀疏数据集,但在处理大数据集时效率较低。
摘要由CSDN通过智能技术生成

目的:

        关联分析的最终目的,就是为了找出强关联规则

基本概念:

1.支持度(support):

      关联规则A->B的支持度support=P(AB),指的是事件A和事件B同时发生的概率(联合概率)

      Support(X→Y) = P(X,Y) / P(I) = P(X∩Y) / P(I) = num(X∩Y) / num(I)

2.置信度(confidence):

        confidence = P(B|A) = P(AB)/P(A),指的是发生事件A的基础上发生事件B的概率(条件概率)

        Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(X∩Y) / P(X)

3.提升度(lift):

        用置信度/提升度;表示含有A的条件下同时含有B的概率,与只看发生B的概率之比

        Lift(X→Y) = P(Y|X) / P(Y)

4.项:

        对于数据表,表的每个字段都具有一个或多个不同的值,每个字段的每一种取值都是一个项

5.项集:

        项的集合称为项集itemset。包含k个项的项集被称为k-项集,k表示项集中项的数目。由所有的项所构成的集合是最大的项集,一般用符号I表示。

6.事务:

        一个事务本质上就是数据表的一个记录,事务的集合称为事务集,一般用D表示

7.关联规则:

        给定一个事务集D,挖掘关联规则的问题就变成如何产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则的问题

8.频繁项集:

        项集的出现频率是包含项集的事务数,项集满足最小支持度阈值minsup,如果项集的出现频率大于或等于minsup与D中事务总数的乘积;满足最小支持阈值的项集就称为频繁项集(大项集)。频繁k项集的集合记为Lk

9.强关联规则:

        大于或等于最小支持度阈值和最小置信度阈值的规则叫做强关联规则

基本思想:

对于Apriori算法,我们用支持度作为判断频繁项集的标准,该算法是要找到最大的K项频繁集,对于频繁项集来说:

1.所有的非空子集也都是频繁的,比

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值