机器学习实战——关联分析

本文介绍了关联分析的基础概念,包括项集、关联规则、频繁项集、支持度和置信度。详细讲解了Apriori算法的原理和流程,并对比了其效率问题。接着阐述了FP-Growth算法的优势,展示了如何构建FP-Tree并挖掘频繁项集。在Python中,可以通过Orange3的关联规则库实现FP-Growth算法进行关联规则挖掘。
摘要由CSDN通过智能技术生成

1 关联分析介绍

关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。下面介绍关联分析中几个常用的概念:
项集:商品构成的集合,集合含有几个商品就称为几项集,如 {啤酒、尿布} 为二项集。
关联规则:商品间具有 X → Y X\rightarrow Y XY 的形式,左侧的 X X X 为先决条件,右侧的 Y Y Y 为相应的关联结果。
频繁项集:某一项集的支持度大于规定的支持度阈值。
支持度:在所有项集中 { X , Y } \{X,Y\} { X,Y} 出现的可能性,即项集中同时出现 X , Y X,Y X,Y 的概率,其形式为:

S u p p o r t ( X → Y ) = P ( X , Y ) Support(X\rightarrow Y)=P(X,Y) Support(XY)=P(X,Y)

置信度:关联规则的先决条件 X X X 发生的条件下, Y Y Y 发生的概率,其形式为:

C o n f i d e n c e ( X → Y ) = P ( Y ∣ X ) = P ( X , Y ) P ( X ) Confidence(X\rightarrow Y)=P(Y|X)=\frac{P(X,Y)}{P(X)} Confidence(XY)=P(YX)=P(X)P(X,Y)

提升度:含有 X X X 的条件下同时含有 Y Y Y 的概率与所有项集中含有 Y Y Y 的概率之比,其形式为:

L i f t ( X → Y ) = P ( Y ∣ X ) P ( Y ) = C o n f i d e n c e ( X → Y ) P ( Y ) Lift(X\rightarrow Y)=\frac{P(Y|X)}{P(Y)}=\frac{Confidence(X\rightarrow Y)}{P(Y)} Lift(XY)=P(

  • 0
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值