关联规则

关联规则是无监督学习,是用于知识发现,而并非预测。

支持度:数据库D中事务同时包含X、Y的百分比

置信度:数据库D中事务包含X的情况下,包含Y的百分百

注:若满足最小支持度阈值和最小置信度玉坠,则认为关联规则是有趣的。但此阈值是根据 挖掘需要认为设定的。


过程(两阶段):

一阶段:必须先从资料集合中找出所有的高频项目组(支持度)

二阶段:由这些高频项目组中产生关联规则(置信度)

注:关联规则挖掘通常比较适合与记录中的指标取离散值的情况。如果原始数据库中的值指标是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据离散化是数据挖掘前的重要环节。离散化的过程是否合理将直接影响关联规则的挖掘结果。


Apriiori算法:

思路:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。

优点:采用了逐层搜索的迭代的方法,算法简单明了,没有复杂的理论推导,也易于实现。

缺点:

  (1)对数据库的扫描次数过多。
  (2)Apriori算法会产生大量的中间项集。
  (3)采用唯一支持度。

  (4)算法的适应面窄。


基于划分的算法

Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈


FP-树频集算法

采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。


提升度(Lift)

关联规则的的有效性。含有X的条件下,同时含有Y的概率,与Y总体发生的概率之比

例子:在分析的10000个事务中,6000个事务包含计算机游戏,7500个包含游戏机游戏,4000个事务同时包两者。

      关联规则(计算机游戏,游戏机游戏)支持度为0.4,看似很高,但其实这个关联规则是一个误区。在用户购买了计算机游戏      后有(4000/6000)=0.667的概率去购买游戏机游戏,而在没有任务前提条件下,用户反而有(7500/10000)=0.75的概率      去购买游戏机游戏,也就是说设置了购买计算机游戏这样的条件反而会降低用户去购买游戏机游戏的概率,所以计算机游戏        和游戏机游戏是相斥的。

Lift(X->Y)=confidence(X->Y)/support(Y)

规则的提升度的意义在于度量项集{X}和项集{Y}的独立性,即Lift(X->Y)=1,{X}、{Y}相互独立

若该值 = 1,说明两个条件没有任何关联

若该值  <1,说明事务A与事务B是互斥的

若该值 > 1,说明事务A与事务B是强项关联

一般在数据挖掘中当提升度大于3时,我们才承认数据挖掘的关联是有价值的


出错率(conviction)

在于度量规则预测错误的概率(表示X出现而Y不出现的概率)


R语言代码

(之后补充)



  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值