Python金融数据挖掘 第八章 第1节 Apriori算法原理(2)

一、目标

1、了解关联规则算法的研究对象、意义和应用场景

2、掌握支持度与置信度的概念及计算方法

3、掌握关联规则算法的项目空间集裁剪方法

4、掌握Apriori算法的原理和实现方法

二、关联规则

1、关联规则(Association RulesAR)分析算法

用于挖掘大规模数据集中有价值、有意义的联系,是数据挖掘领域的十大算法之一。

2、用途

购物篮数据分析、商品推荐营销、电子商务推广、生物信息学研究、医疗诊断咨询和航空电信等行业

3、Apriori算法

Agrawal从数学及计算机算法角度出发,提出了商品关联关系的计算方法——Apriori算法。沃尔玛从上个世纪90年代尝试将Apriori算法引入到POS机数据分析中,获得了显著的业绩增长

三、Apriori算法基本原理中概念

1、事务与项集

(1)事务

关联规则分析研究的对象是事务,事务可以理解为一种商业行为。

事务由序号和项集组成。序号是确定一个事务的唯一标识

(2)项目

项目可以是一种商品、一个网页链接和一个险种。

若干个项目的集合简称项集(item set),若项集包含k个项目,则称该项集为k-项集

(3)实例

数字代替{1:开X存、2:飞X宝、3:新X利、4:友X盈、5:安X}

 1、上表汇集了9个顾客的购买行为,每次购买行为称之为事务,分别用ABCDEFGHI表示。

2、第一个事务A顾客一次性购买了3个产品,其项集为:{1:开X存、2:飞X宝、5:安X},是个3-项集。

3、包含:

5个2-项集、3个3-项集、1个4项集。

2、关联规则

关联规则研究的是事务集合内部的项集与项集之间的关系,这种关系有要有两种表现形式。

(1)频繁项集(Frequency Item Sets):经常同时出现的一些项目的集合

(2)关联规则(Association Rules):项目集合A与项目集合B之间相互依存性和关联性。如果存在A→B的蕴涵式,意味着两种项目之间存在很强的某种联系

“频繁项集”组合的项与项之间,存在着购买意向的“关联”

3、支持度和置信度

(1)支持度:衡量规则在数据库中出现的频率。(项目X和项目Y同时出现的概率)

(2)置信度:衡量规则强弱程度。(是包含项目X的事务中同时也包含项目Y的概率,反映X出现前提下,Y出现的可能性。)

 4、最小支持度、最小置信度

(1)最小支持度:用户定义的衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性。

(2)最小置信度:用户定义的衡量置信度的一个阈值,表示关联规则的最低可靠性。

同时满足最小支持度阈值和最小置信度阈值的规则称作强规则

四、关联规则算法的基本流程

1、找出所有出现过的产品项(候选单项集);

2、将这些产品项的所有可能组合列出来(候选单项集,若干候选单项集组合形成的候选2-项集、3-项集……);

3、在顾客的购买清单中,逐一对这些组合进行匹配(候选项集是否是某位顾客购买清单项中的子集,如果是,该候选项集的支持度加1;

4、大于事先设置好的支持度阈值的候选项集列出,计算其置信度。 

五、项目集格空间理论的两条定理

1、定理1频繁项目集的所有子集仍是频繁项目集

2、定理2:非频繁项目集的所有超集是非频繁项目集

借助项目集格空间理论,可以显著减少待搜索匹配的候选项集。

六、算法流程图

七、根据生成的频繁项集进行规则提取:

1、对于频繁2项集中的频繁项(X,Y),分别根据项X、项Y和项(X,Y)的支持度(就是它们出现的次数)计算

满足最小置信度要求的即为一条关联规则。

2、对于频繁k(k>2)项集中的频繁项,每一项可以划分为2个子集:第1个子集是其中的频繁单项集、2项集……,第2个子集是剩下的项集。计算这2个子集的置信度。满足最小置信度要求的即为一条关联规则。对每一项穷尽所有可能的划分,最后得到所有的关联规则。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值