关联分析(从基础到高级)

本文深入介绍了关联分析的基础概念,包括项、项集、事务、置信度和支持度。通过Apriori算法挖掘频繁项集和关联规则,并讨论了规则挖掘的剪枝策略。此外,还探讨了关联规则的评估补充,如提升度、h-置信度以及辛普森悖论。最后,使用R语言的arules包进行了实战分析,展示了如何对国会投票记录数据进行关联分析。
摘要由CSDN通过智能技术生成


本部分介绍关联分析的基础形式,主要以购物篮数据为依托,给出关联分析的基本概念。
.
1.
关联分析的基础形式和购物篮数据密切相关,所谓的购物篮数据如同下表:
顾客编号 购买商品
1 {苹果,碗}
2 {面包,牛奶}
其主要目的是研究顾客购买的商品之间的关系,例如研究是否多数顾客会同时购买牛奶和面包,这样有助于对商品进行组合促销。通常情况下, 顾客购买的商品称为 ,比如面包是一个项,牛奶也是一个项。将项合并起来组成 ,比如{牛奶,面包}.我们称每个顾客购买的所有商品为 。比如甲买了牛奶,面包,果汁,那么事务就是:{牛奶,面包,果汁}。
2.
关联分析的一个主要目的就是发现关联规则,所谓关联规则就是形如 XY 的蕴含表达式,其中X和Y就是不相交项集,分别称为规则前件和规则后件。它的意义在于如果我们知道了X,那么Y就有可能发生。但是如何度量这种可能性,换句话说这个关联规则的强度有多大?我们有两个指标来度量,这便是 s c 。支持度表明了 X Y 同时出现的概率有多大,关联分析的目的就是寻找支持度比较高的项集,我们称为频繁项集。置信度表示在出现了X之后,出现Y的概率有多大,这个就是用于推断的,如果置信度很高,那么在出现了X,我们就可以推断Y很可能出现。
其定义如下:
1. s(XY)=σ(XY)N
2. c(XY)=σ(XY)σ(X)
其中 σ(.) 表示计数函数,N表示事务的个数.
.
给出所有顾客购买的所有商品,也就是所有项,我们可以形成的规则数为:
R=3d2d+1+1 ,其中

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值