一、目标
1、了解关联规则算法的研究对象、意义和应用场景
2、掌握支持度与置信度的概念及计算方法
3、掌握关联规则算法的项目空间集裁剪方法
4、掌握Apriori算法的原理和实现方法
二、关联规则
1、关联规则(Association Rules,AR)分析算法
用于挖掘大规模数据集中有价值、有意义的联系,是数据挖掘领域的十大算法之一。
2、用途
购物篮数据分析、商品推荐营销、电子商务推广、生物信息学研究、医疗诊断咨询和航空电信等行业
3、Apriori算法
Agrawal从数学及计算机算法角度出发,提出了商品关联关系的计算方法——Apriori算法。沃尔玛从上个世纪90年代尝试将Apriori算法引入到POS机数据分析中,获得了显著的业绩增长
三、Apriori算法基本原理中概念
1、事务与项集
(1)事务
关联规则分析研究的对象是事务,事务可以理解为一种商业行为。
事务由序号和项集组成。序号是确定一个事务的唯一标识。
(2)项目
项目可以是一种商品、一个网页链接和一个险种。
若干个项目的集合简称项集(item set),若项集包含k个项目,则称该项集为k-项集。
(3)实例
数字代替{1:开X存、2:飞X宝、3:新X利、4:友X盈、5:安X盈}
1、上表汇集了9个顾客的购买行为,每次购买行为称之为事务,分别用A,B,C,D,E,F,G,H,I表示。
2、第一个事务A顾客一次性购买了3个产品,其项集为:{1:开X存、2:飞X宝、5:安X盈},是个3-项集。
3、包含:
5个2-项集、3个3-项集、1个4项集。
2、关联规则
关联规则研究的是事务集合内部的项集与项集之间的关系,这种关系有要有两种表现形式。
(1)频繁项集(Frequency Item Sets):经常同时出现的一些项目的集合
(2)关联规则(Association Rules):项目集合A与项目集合B之间相互依存性和关联性。如果存在A→B的蕴涵式,意味着两种项目之间存在很强的某种联系
“频繁项集”组合的项与项之间,存在着购买意向的“关联”
3、支持度和置信度
(1)支持度:衡量规则在数据库中出现的频率。(项目X和项目Y同时出现的概率)
(2)置信度:衡量规则的强弱程度。(是包含项目X的事务中同时也包含项目Y的概率,反映X出现前提下,Y出现的可能性。)
4、最小支持度、最小置信度
(1)最小支持度:用户定义的衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性。
(2)最小置信度:用户定义的衡量置信度的一个阈值,表示关联规则的最低可靠性。
同时满足最小支持度阈值和最小置信度阈值的规则称作强规则
四、关联规则算法的基本流程
1、找出所有出现过的产品项(候选单项集);
2、将这些产品项的所有可能组合列出来(候选单项集,若干候选单项集组合形成的候选2-项集、3-项集……);
3、在顾客的购买清单中,逐一对这些组合进行匹配(候选项集是否是某位顾客购买清单项中的子集,如果是,该候选项集的支持度加1;
4、将大于事先设置好的支持度阈值的候选项集列出,计算其置信度。
五、项目集格空间理论的两条定理
1、定理1:频繁项目集的所有子集仍是频繁项目集
2、定理2:非频繁项目集的所有超集是非频繁项目集
借助项目集格空间理论,可以显著减少待搜索匹配的候选项集。
六、算法流程图
七、根据生成的频繁项集进行规则提取:
1、对于频繁2项集中的频繁项(X,Y),分别根据项X、项Y和项(X,Y)的支持度(就是它们出现的次数)计算
满足最小置信度要求的即为一条关联规则。
2、对于频繁k(k>2)项集中的频繁项,每一项可以划分为2个子集:第1个子集是其中的频繁单项集、2项集……,第2个子集是剩下的项集。计算这2个子集的置信度。满足最小置信度要求的即为一条关联规则。对每一项穷尽所有可能的划分,最后得到所有的关联规则。