注意!
ß这里似乎有不严密的地方:即,A引申成了“尿布”,B引申成了“啤酒”,这样才能满足A Ç B =Æ,A È B才是指“尿布” 和“啤酒”这两样东西!
ß而且,命题之间的操作是“析取”、“合取”才对。
ß如果按前页所述,A、B是指“买了……的顾客”,则A、B 就是两个集合,但蕴含式要求前件、后件都是“命题”,反而不对了!
支持度、置信度与提升度
ß支持度用来删掉那些出现频度低的规则;是对关联规则重要性的衡量。
ß置信度是评价通过规则进行推理具有可靠性;对关联规则的准确程度的衡量。
ß提升度用来确保“前件”推出“后件”是有意义的;而不是因为“后件”普遍存在。
ß在关联规则挖掘中,满足一定最小置信度以及支持度的集合成为频繁集(或强关联)。
ß关联规则挖掘则是一个寻找频繁集的过程。
提升度的意义
有1000名顾客,购买年货,A组有500人购买茶叶,有450人购买咖啡;B组有0人购买茶叶,有450人购买咖啡。
茶叶->咖啡的支持度= 450/1000 = 45%
茶叶->咖啡的置信度= 450/500 = 90%
茶叶->咖啡的提升度= 90%/90%=1
说明:由于lift(茶叶X->咖啡Y)=1,所以说明X与Y相互独立,即是否有X对于Y的出现没有影响。虽然支持度和置信度都高,但它们之间没有必然的关联关系
关联规则步骤
ß关联规则是从事务集合中挖掘出这样的关联规则{X->Y}:它的支持度和置信度要大于最小阈值,使用关联规则的过程主要包含以下三个步骤:
(1)数据筛选,首先对数据进行清洗,清洗掉那些普遍共有的项目
(2)根据支持度(support),从事务集合中找出频繁项集(使用算法:Apriori算法,FP-Growth算法)
(3)根据置信度(confidence),从频繁项集中找出强关联规则(置信度阈值需要根据实验或者经验而定)