【数据挖掘】期末复习 第五章

第五章 关联分析

1、关联分析的定义

关联分析(Association Analysis)用于发现隐藏在大型数据集中的令人感兴趣的联系。联系的表示方式一般为关联规则或频繁项集,例:{尿布}→{啤酒}

2、关联分析的应用

挖掘商场销售数据,发现商品间的联系,帮助商场进行促销及货架的摆放;挖掘医疗诊断数据,可以发现某些症状与某种病之间的关联,为医生进行疾病诊断和治疗提供线索;网页挖掘——揭示不同浏览网页之间的有趣联系。

3、关联分析的基本概念

项集:一个包含 k 个数据项的项集就称为 k−项集
支持度计数:包含该项集的事务数
频繁项集:满足minsupport的n项集
关联规则:形如 X –> Y 的蕴涵式,{可乐,尿布}->{啤酒}
支持度: 该项集出现次数/总事务数
置信度: c(X->Y)=σ(XUY)/σ(X)

4、关联分析的任务

找出数据集中隐藏的强规则,通常分为两个步骤,首先在数据集中找出频繁项集,然后从频繁项集中,提取所有高置信度的规则。

5、Apriori 算法

Apriori 算法具有一个 Apriori 性质,即先验原理来控制候选项集的指数增长。
Apriori 性质(先验原理):如果一个项集是频繁的,则它的所有子集也是频繁的,相反:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。

例如:
{X,Y,Z}频繁→{X,Y},{X,Z},{Y,Z}也频繁
{X,Y}不频繁→所有超集都不频繁

6、关联规则的生成

前面介绍的 Apriori 算法和 FP-growth 算法都是频繁项集提取算法。在提取出频繁项集的基础上,就可以生成强关联规则,方法如下:
给定频繁项集 X,取 X 的每个非空真子集 S,如果规则 S→X-S 满足置信度阈值,则该规则为强关联规则。

7、关联规则的评估

关联规则的评估通常有 2 种方式:一种通过统计论据来评估, 支持度、置信度、提升度;另一种通过主观论据来评估。
统计论据评估:
== 其实就是算概率==
请添加图片描述
其中:

lift值Value
lift>1强关联
lift<1弱关联

例题

请添加图片描述
请添加图片描述
请添加图片描述

  • 7
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值