关联分析-Apriori

君子与时偕行

已于 2022-05-20 10:51:44 修改

阅读量794

点赞数 1

分类专栏：数据挖掘文章标签： python 数据挖掘

于 2022-05-20 10:49:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51429926/article/details/124866489

版权

本文详细介绍了关联分析中的Apriori算法，包括其目的、基本概念、基本思想、优缺点以及代码实现。Apriori算法通过迭代方式找出频繁项集，并基于频繁项集生成强关联规则。它适用于稀疏数据集，但在处理大数据集时效率较低。

摘要由CSDN通过智能技术生成

目的：

关联分析的最终目的，就是为了找出强关联规则

基本概念：

1.支持度（support）：

关联规则A->B的支持度support=P(AB)，指的是事件A和事件B同时发生的概率（联合概率）

Support(X→Y) = P(X,Y) / P(I) = P(X∩Y) / P(I) = num(X∩Y) / num(I)

2.置信度（confidence）：

confidence = P(B|A) = P(AB)/P(A),指的是发生事件A的基础上发生事件B的概率(条件概率)

Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(X∩Y) / P(X)

3.提升度（lift）：

用置信度/提升度；表示含有A的条件下同时含有B的概率，与只看发生B的概率之比

Lift(X→Y) = P(Y|X) / P(Y)

4.项：

对于数据表，表的每个字段都具有一个或多个不同的值，每个字段的每一种取值都是一个项

5.项集：

项的集合称为项集itemset。包含k个项的项集被称为k-项集，k表示项集中项的数目。由所有的项所构成的集合是最大的项集，一般用符号I表示。

6.事务：

一个事务本质上就是数据表的一个记录，事务的集合称为事务集，一般用D表示

7.关联规则：

给定一个事务集D，挖掘关联规则的问题就变成如何产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则的问题

8.频繁项集：

项集的出现频率是包含项集的事务数，项集满足最小支持度阈值minsup，如果项集的出现频率大于或等于minsup与D中事务总数的乘积；满足最小支持阈值的项集就称为频繁项集（大项集）。频繁k项集的集合记为Lk

9.强关联规则：

大于或等于最小支持度阈值和最小置信度阈值的规则叫做强关联规则

基本思想：

对于Apriori算法，我们用支持度作为判断频繁项集的标准，该算法是要找到最大的K项频繁集，对于频繁项集来说：

1.所有的非空子集也都是频繁的，比

最低0.47元/天解锁文章

君子与时偕行

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

君子与时偕行 CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

34万+: 周排名

49万+: 总排名

3772: 访问

: 等级

81: 积分

6: 粉丝

6: 获赞

7: 评论

24: 收藏

私信

关注

热门文章

分类专栏

数据分析 1篇
爬虫 1篇
数据挖掘 3篇
网络编程 1篇
Django 1篇

最新评论

pandas知识复习 (from和鲸)
qq_32098057: 我在和鲸社区没有找到原文呢？
pandas知识复习 (from和鲸)
CU敲码没有I: 使用列表表达式就会提示test和test1不存在，使用lambda则不会报错，正常读取
pandas知识复习 (from和鲸)
CU敲码没有I: data8 = pd.read_csv('某招聘网站数据.csv',usecols=[x for x in usecols])
pandas知识复习 (from和鲸)
CU敲码没有I: （5）读取 Excel 文件｜指定列（匹配）就是这道题目
pandas知识复习 (from和鲸)
CU敲码没有I: 博主你好！1-（5）这道题解不是很理解！test,和test1两列不在原始数据列名中。使用个set,它就可以实现了！不是很理解 """ 让我们来个更难一点的，还是读取某招聘网站数据.csv 文件，但现在有一个 list 中包含多个字段👇 usecols = ['positionId','test','positionName', 'test1','salary'] 如果 usecols 中的列名存在于某招聘网站数据.csv 中，则读取。 """ usecols = ['positionId', 'test', 'positionName', 'test1', 'salary'] data = pd.read_csv('某招聘网站数据.csv', usecols=lambda c: c in set(usecols))

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。