关联分析-Apriori

目的:

        关联分析的最终目的,就是为了找出强关联规则

基本概念:

1.支持度(support):

      关联规则A->B的支持度support=P(AB),指的是事件A和事件B同时发生的概率(联合概率)

      Support(X→Y) = P(X,Y) / P(I) = P(X∩Y) / P(I) = num(X∩Y) / num(I)

2.置信度(confidence):

        confidence = P(B|A) = P(AB)/P(A),指的是发生事件A的基础上发生事件B的概率(条件概率)

        Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(X∩Y) / P(X)

3.提升度(lift):

        用置信度/提升度;表示含有A的条件下同时含有B的概率,与只看发生B的概率之比

        Lift(X→Y) = P(Y|X) / P(Y)

4.项:

        对于数据表,表的每个字段都具有一个或多个不同的值,每个字段的每一种取值都是一个项

5.项集:

        项的集合称为项集itemset。包含k个项的项集被称为k-项集,k表示项集中项的数目。由所有的项所构成的集合是最大的项集,一般用符号I表示。

6.事务:

        一个事务本质上就是数据表的一个记录,事务的集合称为事务集,一般用D表示

7.关联规则:

        给定一个事务集D,挖掘关联规则的问题就变成如何产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则的问题

8.频繁项集:

        项集的出现频率是包含项集的事务数,项集满足最小支持度阈值minsup,如果项集的出现频率大于或等于minsup与D中事务总数的乘积;满足最小支持阈值的项集就称为频繁项集(大项集)。频繁k项集的集合记为Lk

9.强关联规则:

        大于或等于最小支持度阈值和最小置信度阈值的规则叫做强关联规则

基本思想:

对于Apriori算

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值