挖掘频繁模式、关联和相关性:基本概念和方法

最新推荐文章于 2021-07-29 17:24:10 发布

xiaocajiyyd

最新推荐文章于 2021-07-29 17:24:10 发布

阅读量653

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaocajiyyd/article/details/78765661

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1基本概念

频繁模式挖掘搜索给定数据集中反复出现的联系。

典型例子：购物篮分析 该过程通过发现顾客放入他们购物篮中的商品之中的关联，分析顾客的购物习惯。
关联规则（association rule） ： A => B[support = ?% ; confidence = ?%]
规则的支持度和置信度是规则兴趣度的两种度量。

2 频繁项集、闭项集和关联规则

规则 A=>B 具有支持度 s = support(A=>B) = P(A U B)
规则 A=>B 具有置信度 c = confidence(A=>B) = p (B | A)

频繁项集 : 当项集K 的相对支持度 support(A=>B) 满足预定义的最小支持度阈值，则项集K是频繁项集。

闭项集:当项集K 不存在超项集 Y 使其具有相同的支持度。则项集K在数据集D中是闭频繁项集。

极大频繁项集(极大项集) : 项集K频繁的，且不存在超项集 Y 在数据集D中是频繁的，则K是极大频繁项集

3 频繁项集挖掘方法

Apriori算法 : 通过限制候选产生发现频繁项集。
原理: 逐层搜索的迭代方法利用K项集去探索 K+1 项集。没找出一个频繁项集 Li 需要一次数据库的完整扫描

先验规则：频繁项集的所有没空子集一定是频繁的。

举例由L1 找到 L2

步骤(1) 连接步:

通过L1与自身连接产生候选K项集的集合。该集合为Ck。设l1、l2 是L1中的项集，记号 li[j]表示 li的第j项。
为了有效地实现Apriori算法假定事务或项集中的项按字典序排序。

步骤(2) 剪枝步:

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。