关联规则

关 联 规 则 分 析

关联规则简介:

关联规则虽然来源于POS中,但是可以应用于很多领域。只要一个客户在同一个时间里买了多样东西,或者在一段时间了做了好几样事情就可能是一个潜在的应用。例如:


用信用卡购物,如汽车租金和旅馆费,可以看他下一个要买的东西。

电话公司提供的多项服务,以研究捆绑销售的问题。

银行提供的多项服务,来分析客户可能需要那些服务。

不寻常的多项保险申请可能是欺诈行为。

数据挖掘什么时候有用?三种规则:有用的、价值不高的、费解的。价值不高的规则往往是对一些商业领域内的规则重现。费解的规则往往是数据中一些偶然的东西,从而也没有什么采取行动的价值。
虚拟元素(Virtual Items)是一个在事务中认为加入的元素。用来对事务进行一定的区别。加入虚拟元素后我们能做的事情:

对比促销时和平常销售时的区别。

按照销售的区域来看,按照销售的方式来看。
比较城市和郊区的区别。

比较各个季节的不同。

数据挖掘的基本流程:

选择合适的元素。考虑不同的统计级别,选择哪种细节程度。细节的颗粒越粗,那么算法的工作量就越小;细节的颗粒越细,那么结果的可实施性就越好。关键:只有当数据中的元素出现的次数大致相同是,关联规则的效果才最好。虚拟元素不能太多!应该注意数据的质量。

产生规则。什么是规则?就是一个条件和一个结果的和:If condition then result。实际中有用的往往是结果中只有一个元素的情况。支持度、可信度和提高率(兴趣度)。

元组
出现频率
A 45%  B 42.5%  C 40%    A和B   25%    A和C   20%  B和C  15%    A和B和C  5%

支持度:就是一个元组在整个数据库中出现的概率。如上面的例子中S(A)=0.45。

可信度:它是针对规则而言的。对于一般的规则,它的可信度=p(condition and result)/p(condition)。例如有如下规则:If B and C then A。则它的可信度是:p(B and C and A)/p(B and C)=5%/15%=0.33。

提高率(或者叫兴趣度):对于上面的一个规则,我们可以发现,当我们从从数据库中直接取A的时候,概率是45%;可在我们的规则中,取到A的概率却只有33.3%。显然,这种情况是我们不愿意见到的,我们应该略去这样的一些规则。所以我们引入了兴趣度的概念,具体的公式如下:兴趣度=p(condition and result)/p(condition)*p(result)。当兴趣度大于1的时候,这条规则就是比较好的;当兴趣度小于1的时候,这条规则就是没有很大意义的。兴趣度越大,规则的实际意义就越好。


克服实际应用中数据量暴大的问题。当数据量增大时,要考虑的元素组就增长的很快了。

分裂规则:例如:If A and not B then C。

用关联规则的方法对序列规则的分析:

为了进行序列模式的分析,事务数据要满足额外的两个条件:

一个时标或者序列信息用以决定事务发生的顺序。

标识信息,用以区别不同的事务。

可以用于原因结果分析。 

关联规则的优缺点:
优点:
它可以产生清晰有用的结果。

它支持间接数据挖掘。

可以处理变长的数据。

它的计算的消耗量是可以预见的。
缺点:

当问题变大时,计算量增长得厉害。

难以决定正确的数据。

容易忽略稀有的数据。

连接分析
引言
商业世界是关系的世界。

关联分析是基于图论的。

关联分析的应用:

² 分析打电话的模式。

² 理解医师之间的推荐模式。

² 犯罪分析。

图论基础
基本概念:节点、边、全连接、平面图、连接图、路径、带权图、最短路径问题。

例子:七桥问题、销售员问题(哈密而顿路径)NP(not polynomial)问题。

从中得出一个经验:有时候用一个可以得出好结果但不是完美结果的算法,要比能寻找完美解的算法来的好。对于数据挖掘也一样:不完美的结果如果是可行的,那么这样的分析就是一个好的分析。

案例学习
寻找使用 Fax Machines的用户

why?

数据:经过处理后,只剩下三个字段:持续时间,发出电话号,接收电话号。

方法:通过一组已知的号码来寻找其他的号码。

Dedicated fax,Shared,Data三个的区别。

处理过程:1:选择一些已知的Fax Machines号码

2:从已知的号码中拓展开去,得到candidate集。

如果打411,555-1212,或一个已知的shared号则归到shared号中;否则归入fax号中。

如此反复。

对于时间极短的号码,我们就认为是错误号码,从而忽略。

有向图:在有向图中寻找回路。

案例学习
使用连接分析对便携式电话用户进行分群,然后向某些群体提供新的服务。实际效果是将回馈率从2-3%提高到15%。

数据:
1. 打电话号码和接电话号码

2. 打电话的地方

3. 打电话用户的帐号

4. 电话持续时间

5. 时间、日期

6. 其他各种记号
未使用连接分析之前的工作:市场部主要使用一个变量进行分群:MOU(minutes of use),就是每个月某部电话的使用时间。

两个用户的比较:
连接分析的作用:1:可视化,从一些用户的行为中分析出一些模式。

2:将产生的概念应用于更广的用户群体中。

不等的节点
连接分析的优缺点
优点:

1.可以充分利用关系

2.强大的可视化能力

3.创建衍生属性

缺点:

1.对不少数据格式是不可行的。

2.工具太少

3.对关系数据库进行分析的效率不高

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值