【数据挖掘】关联分析基本概念与术语

本文详细介绍了数据挖掘中的关联分析,包括事务、二元表示、关联分析、项集和支持度计数、关联规则及其支持度和置信度,以及格结构在搜索空间中的应用。关联分析旨在发现大型数据集中的有意义联系,例如通过购物篮分析发现尿布与啤酒间的关联规则。
摘要由CSDN通过智能技术生成

本文介绍数据挖掘中关联分析的基本概念与基本术语。

基本概念与术语

1. 事务:

一条数据也叫一条事务(transaction),数据的ID即事务的ID,简写为TID,表6-1是购物篮事务的例子,可以理解为顾客的购物记录。
在这里插入图片描述

2. 二元表示 (这个术语暂时不理解也没关系)

如表6-2所示,每行对应一个事务,每一列对应一个项。
项用二元变量表示:如果项在事务中出现,则它的值是1,否则为0。
因为通常认为项在事务中出现比不出现更重要,所以项是非对称(asymmetric)二元变量
在这里插入图片描述

3. 关联分析(association analysis):

用于发现隐藏在大型数据之中的有意义的联系。
所发现的联系可以用关联规则(association rule)或者频繁项集表示。
表6-1可以提取出如下规则:
{尿布} → {啤酒}
表示尿布和啤酒之间存在着很强的联系,因为很多购买尿布的顾客也购买了啤酒。

4. 项集和支持度计数

I = { i 1 , i 2 , … , i d } I=\{i_1, i_2, …, i_d\} I={ i1,i2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值