数据挖掘学习笔记(1)关联分析

关联分析的基本概念

关联分析 (Association Analysis):

在大规模数据集中寻找有趣的关系

频繁项集(Frequent Item Sets):

经常出现在一块的物品的集合,即包含0个或者多个项的集合称为项集

支持度(Support):

数据集中包含该项集的记录所占的比例,是针对项集来说的

置信度(Confidence):

出现某些物品时,另外一些物品必定出现的概率,针对规则而言

关联规则(Association Rules):

暗示两个物品之间可能存在很强的关系。形如A->B的表达式,规则A->B的度量包括支持度和置信度

项集支持度:

一个项集出现的次数与数据集所有事物数的百分比称为项集的支持度

eg:support(A⇒B)=support_count(A∪B)/N

支持度反映了A和B同时出现的概率,关联规则的支持度等于频繁集的支持度。

项集置信度:

eg:confidence(A⇒B)=support_count(A∪B)/support_count(A)

置信度反映了如果交易中包含A,则交易包含B的概率。也可以称为在A发生的条件下,发生B的概率,成为条件概率。

只有支持度和置信度(可信度)较高的关联规则才是用户感兴趣的。
 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值