关联分析（一）基本概念和内容简介

最新推荐文章于 2022-05-15 15:58:18 发布

dastu

最新推荐文章于 2022-05-15 15:58:18 发布

阅读量1.2k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘机器学习大数据 python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44467105/article/details/104072533

版权

数据挖掘专栏收录该内容

25 篇文章 0 订阅

订阅专栏

数据挖掘--关联分析（一）

- 一.基本概念
- 二.问题定义

一.基本概念

1.非对称的二元变量：通常认为项在事务中出现比不出现重要

2.支持度计数：包含某个项集的事务的个数

3.支持度和置信度：

支持度：

置信度：
在这里插入图片描述

二.问题定义

1.支持度和置信度的作用与区别：
支持度往往反映了关联规则在总事务中出现的频繁程度，因此支持度过低的规则往往作用不大，因为只是偶然出现。
置信度反映的是对于关联规则X->Y，若置信度越高，则Y在包含X的事务中出现的概率越大。

2.关联规则的发现：
找出支持度大于minsup和置信度大于minconf的规则。

所以，关联规则的发现一般分为两个任务：

1）找出满足最小支持度阈值的项集，即频繁项集。
2）在找出的频繁项集中，提取置信度高的规则，即强规则。

这两个任务都会产生很大的开销，其中任务1）的开销会远大于任务2），对于这两个任务我们都会采取相应的方法减少开销。

**关联分析的大纲就是关于如何执行这两个任务，并尽可能减少两个任务开销而展开的:

其中，任务1）（选出频繁项集）的过程：
Apriori算法：

选出候选项集（涉及产生候选项集，剪枝来减少计算开销）
从候选项集中选出频繁项集（涉及支持度计数的方法来减少开销）

FP增长算法：

FP树的产生
从FP树中选出频繁项集

任务2）（规则产生）的过程：

Apriori算法规则的产生

参考书籍：数据挖掘导论

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关联分析（一）基本概念和内容简介

一基本概念
复制链接

扫一扫

专栏目录

dastu CSDN认证博客专家 CSDN认证企业博客

码龄6年

33: 原创

42万+: 周排名

108万+: 总排名

4万+: 访问

: 等级

687: 积分

7: 粉丝

20: 获赞

9: 评论

106: 收藏

私信

关注

热门文章

分类专栏

NLP 1篇
社交网络 4篇
数据挖掘 25篇
爬虫
推荐算法 1篇
算法 1篇

最新评论

理解K折交叉验证
dastu: K折就是一种思想，怎么实现都行，只不过手动这样比较麻烦
理解K折交叉验证
cv小菜鸡: 楼主，请问按这样的规则手动训练k次算是k折交叉验证么
二叉树的前中后序遍历递归/非递归（python版）
m0_51693022: 中序遍历的递归写法写错了吧，递归用的函数不对呀
学习笔记——XGBoost(极端梯度提升)
dastu: gti和hti就是求导得来的
学习笔记——XGBoost(极端梯度提升)
joyes1989: 感谢分享，请教一个问题：gti和hti具体如何计算呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。