关联分析(一)基本概念和内容简介

数据挖掘--关联分析(一)

一.基本概念

1.非对称的二元变量:通常认为项在事务中出现比不出现重要

2.支持度计数:包含某个项集的事务的个数

3.支持度和置信度:

支持度:

置信度:
在这里插入图片描述

二.问题定义

1.支持度和置信度的作用与区别:
支持度往往反映了关联规则在总事务中出现的频繁程度,因此支持度过低的规则往往作用不大,因为只是偶然出现。
置信度反映的是对于关联规则X->Y,若置信度越高,则Y在包含X的事务中出现的概率越大。

2.关联规则的发现:
找出支持度大于minsup和置信度大于minconf的规则。

所以,关联规则的发现一般分为两个任务:

  • 1)找出满足最小支持度阈值的项集,即频繁项集。
  • 2)在找出的频繁项集中,提取置信度高的规则,即强规则。

这两个任务都会产生很大的开销,其中任务1)的开销会远大于任务2),对于这两个任务我们都会采取相应的方法减少开销。

**关联分析的大纲就是关于如何执行这两个任务,并尽可能减少两个任务开销而展开的:

其中,任务1)(选出频繁项集)的过程:
Apriori算法:

  1. 选出候选项集(涉及产生候选项集,剪枝来减少计算开销)
  2. 从候选项集中选出频繁项集(涉及支持度计数的方法来减少开销)

FP增长算法:

  1. FP树的产生
  2. 从FP树中选出频繁项集

任务2)(规则产生)的过程:

Apriori算法规则的产生

参考书籍:数据挖掘导论

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值