【数据挖掘】啤酒与尿布

目录

一、背景

现象

原因

二、数据挖掘与关联规则

三、关联规则算法目标

四、关联规则如何表示

五、关联规则算法中相关概念

项集:

支持数:

频繁项集:

置信度:

六、关联规则算法(案例演示)

支持度

置信度

 七、提升度计算

八、代码实战


一、背景

现象

故事发生于20世纪90年代的美国超市中,超市人员分析销售数据时发现了奇怪的现象:“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一张购物小票上,这种独特的销售现象引起了超市人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

原因

在美国有婴儿的家庭中,一般是母亲在家政中照看婴儿,年轻父亲去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一张购物小票的现象

 

 二、数据挖掘与关联规则

数据挖掘(Data mining)一般是指从大量的数据中通过算法搜索隐藏于其中有价值信息的过程。其中关联规则是数据挖掘经典算法之一。

三、关联规则算法目标

寻找哪些总是一起出现的商品

四、关联规则如何表示

啤酒 => 尿布 [support=60%; confidence= 70%]

尿布 => 尿布 [支持度=60%; 置信度= 70%]

五、关联规则算法中相关概念

支持度; 置信度; 项集; 频繁项集

项集:

项:是指每个购物小票的每个商品,例如面包是项、牛奶是项,即对于的每个商品成为项。

项集:是指大于等于1个以上的项构成的集合,例如{面包}是一项集{面包,牛奶}是两项集,集合中有几个项,就成为几项集。

支持数:

是指项集出现在所有购物小票中的次数。

例如项集{面包、牛奶}是两项集,出现在购物小票中三次,则支持数为3。支持度为3/6=0.5。

频繁项集:

假设我们设置支持数阈值为2.而上述两项集的支持度计数是3》2,所以该2项集{面包、牛奶}是频繁项集。(阈值为人为设定)

置信度:

含有频繁项集{面包,牛奶}的小票数,占所有含有购买{面包}小票数的比例--置信度

六、关联规则算法(案例演示)

支持度

 

置信度

出现{面包,牛奶。啤酒}则60%出现啤酒
出现{面包,啤酒}则100%出现牛奶 

出现{牛奶,啤酒}则100%出现面包

 七、提升度计算

八、代码实战

"""
# 关联挖掘实战
"""
from apyori import apriori
# 数据  每一条相当于一个小票
data = [["面包", "牛奶", "啤酒"],
["啤酒", "泡面", "尿布"],
["矿泉水", "泡面", "尿布"],
["啤酒", "尿布"],
["面包", "牛奶", "啤酒", "尿布"],
["面包", "牛奶", "啤酒"]]

# 调用apriori
result = list(apriori(transactions = data, min_support=0.3, min_confidence=0.6))  # min_support最小支持度  min_confidence最小置信度
print("输出结果")
for item in result:
    print(item)

# RelationRecord(items=frozenset({'尿布', '泡面'}), support=0.3333333333333333, ordered_statistics=[OrderedStatistic(items_base=frozenset({'泡面'}), items_add=frozenset({'尿布'}), confidence=1.0, lift=1.5)])
# frozenset({'尿布', '泡面'}平凡项极  ;  support=0.3333333333333333  支持度0.3  ; ordered_statistics=[OrderedStatistic(items_base=frozenset({'泡面'}), items_add=frozenset({'尿布'})  关联规则  ;  confidence=1.0  置信度

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
尿布啤酒的故事 这是一个老故事, 但每次看总是能从中想到点什么.在一家超市里,有一个有趣的现象:尿布啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒尿布在一起购买的机会还是很多的。 是什么让沃尔玛发现了尿布啤酒之间的关系呢? 研究“啤酒尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长! 商品相关性分析是购物篮分析中最重要的部分,购物篮分析英文名为market basket analysis(简称MBA,当然这可不是那个可以用来吓人的学位名称)。在数据分析行业,将购物篮的商品相关性分析称为“数据挖掘算法之王”,可见购物篮商品相关性算法吸引人的地方,这也正是乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。 下面每一行是一个购物小票,直到遇到五个零00000,输入序列终止,每个字母表示一种商品(字母区分大小写,即a 和A代表不同的产品),请分析哪两个种产品的销售相关性最高: 样例输入: AABZXY BMNY CD CBYPQ BWVCY 00000 输出(字幕顺序按ASC码升序排列): BY
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值