挖掘频繁模式、关联和相关性:基本概念和方法

基本概念

频繁模式:

频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。
例如:频繁地同时出现在交易数据集中的商品(如香皂和洗衣液)的集合是频繁项集。

序号交易号香皂(a)洗发露(b)洗衣液(c)牙膏(d)简化表示
1081201香皂洗发露洗衣夜a, b, c
2081202香皂洗衣夜牙膏a, c, d
3081203香皂洗发露a, b,
4081204洗发露洗衣夜牙膏b, c, d
5081205香皂洗发露洗衣夜牙膏a, b, c, d
6081206香皂洗发露洗衣夜牙膏a, b, c, d
7081207洗发露牙膏b, d
8081208香皂牙膏a, b, c, d
9081209香皂洗发露a, d
10081210香皂洗发露牙膏a, b, d
关联规则:

关联规则就是描述数据事务属性项目之间的关联。

  • 表示成X=>Y(s%, c%)。
  • 其中s%为支持度,即X和Y同时出现的概率,c%为置信度,即在X出现的情况下,Y也出现的概率。
  • 举例:上表中可以知道:有6个事务中买香皂就一定买了洗发露;如第1,3,5,6,9和10条。这个概率为6/10=60%。
    在买香皂的前提下(即有8个,1,2,3,5,6,8,9,10),又买洗发露的个数为6个,这个概率为6/7=85%。
    那么写“买香皂就一定买了洗发露”的关联规则表示成:a=>b。此时的支持度为60%,置信度为85%。
支持度:

支持度就是指定的项目组合集,在数据库中包含这个项目集的事务数占总数的比例。

  • 项目集就是项目属性的任意组合,如表所示,这里有4个项目属性a,b,c,d,则可能有4^2即16种情况,全部没有除外就只有15种情况。
  • 假设项目集为{a},也就是买香皂的交易有:1,2,3,5,6,8,9,10,也就是有8个交易中有香皂,所以项目集为{a}的支持数为8,支持度为80%。
    假设项目集为{a,b},也就是同时买香皂和洗发露的交易有:1,3,5,6,9,10也就是有6个交易中同时有香皂和洗发露,所以项目集为{a,b}的支持数为6,支持度为60%。
置信度:

置信度是在X出现的情况下,Y也出现的概率。计算公式为:X和Y的支持数/X的支持数。

  • 规则:{a,b}=>{c}(30%, 50%), {a,b,c}的支持数为3个,{a,b}的支持数为6个,规则置信度为50%。
频繁项目集:

频繁项目集就是指项目集的支持度大于人们指定的支持度。

  • 举例:项目集为{a,b}的支持数为6,支持度为60%,如果人们指定的支持度为60%,则它为频繁项目集。如果指定的支持度为61%,它为非频繁项目集.

本人初学,敬请指教。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值