【数据挖掘】啤酒与尿布

目录

一、背景

现象

原因

二、数据挖掘与关联规则

三、关联规则算法目标

四、关联规则如何表示

五、关联规则算法中相关概念

项集:

支持数:

频繁项集:

置信度:

六、关联规则算法(案例演示)

支持度

置信度

 七、提升度计算

八、代码实战


一、背景

现象

故事发生于20世纪90年代的美国超市中,超市人员分析销售数据时发现了奇怪的现象:“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一张购物小票上,这种独特的销售现象引起了超市人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

原因

在美国有婴儿的家庭中,一般是母亲在家政中照看婴儿,年轻父亲去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一张购物小票的现象

 

 二、数据挖掘与关联规则

数据挖掘(Data mining)一般是指从大量的数据中通过算法搜索隐藏于其中有价值信息的过程。其中关联规则是数据挖掘经典算法之一。

三、关联规则算法目标

寻找哪些总是一起出现的商品

四、关联规则如何表示

啤酒 => 尿布 [support=60%; confidence= 70%]

尿布 => 尿布 [支持度=60%; 置信度= 70%]

五、关联规则算法中相关概念

支持度; 置信度; 项集; 频繁项集

项集:

项:是指每个购物小票的每个商品,例如面包是项、牛奶是项,即对于的每个商品成为项。

项集:是指大于等于1个以上的项构成的集合,例如{面包}是一项集{面包,牛奶}是两项集,集合中有几个项,就成为几项集。

支持数:

是指项集出现在所有购物小票中的次数。

例如项集{面包、牛奶}是两项集,出现在购物小票中三次,则支持数为3。支持度为3/6=0.5。

频繁项集:

假设我们设置支持数阈值为2.而上述两项集的支持度计数是3》2,所以该2项集{面包、牛奶}是频繁项集。(阈值为人为设定)

置信度:

含有频繁项集{面包,牛奶}的小票数,占所有含有购买{面包}小票数的比例--置信度

六、关联规则算法(案例演示)

支持度

 

置信度

出现{面包,牛奶。啤酒}则60%出现啤酒
出现{面包,啤酒}则100%出现牛奶 

出现{牛奶,啤酒}则100%出现面包

 七、提升度计算

八、代码实战

"""
# 关联挖掘实战
"""
from apyori import apriori
# 数据  每一条相当于一个小票
data = [["面包", "牛奶", "啤酒"],
["啤酒", "泡面", "尿布"],
["矿泉水", "泡面", "尿布"],
["啤酒", "尿布"],
["面包", "牛奶", "啤酒", "尿布"],
["面包", "牛奶", "啤酒"]]

# 调用apriori
result = list(apriori(transactions = data, min_support=0.3, min_confidence=0.6))  # min_support最小支持度  min_confidence最小置信度
print("输出结果")
for item in result:
    print(item)

# RelationRecord(items=frozenset({'尿布', '泡面'}), support=0.3333333333333333, ordered_statistics=[OrderedStatistic(items_base=frozenset({'泡面'}), items_add=frozenset({'尿布'}), confidence=1.0, lift=1.5)])
# frozenset({'尿布', '泡面'}平凡项极  ;  support=0.3333333333333333  支持度0.3  ; ordered_statistics=[OrderedStatistic(items_base=frozenset({'泡面'}), items_add=frozenset({'尿布'})  关联规则  ;  confidence=1.0  置信度

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
数据挖掘技术与应用综述 *** (**大学经管学院**班 河北 石家庄050000) 摘 要:数据挖掘能为决策者提供重要的,极有价值的信息或知识,越来越多的大中型企 业开始利用数据挖掘来分析公司的数据来辅助决策支持, 市场策略制定等。本文主要从技术和应用两个方面对数据挖掘进行了综合论述和讨论。 关键词:数据挖掘; 关联规则; 分类与预测; 数据仓库; 决策支持系统 General description of Data mining technology and application **** (Hebei University of Economics and Management of Information Management and Information System L082 classes Shijiazhuang 050000) Pick to: data mining can provide important decision makers, extremely valuable information or knowledge, more and more large and medium-sized enterprise started using data mining to analyze company data to assist decision support, market strategy formulation, etc. This article mainly from the technology and application of data mining in two aspects of synthetically expounded and discussed. Key words: data mining; Association rules; Classification and forecast; Data warehouse; Decision support system 引言:近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据, 可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识 可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等 。 数据挖掘的起源: 企业存在大量数据,且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知 识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索 等。数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地 接纳了来自其他领域需要是发明之母。数据采集和和存储技术的进步导致庞大的数据库 日益增多,并的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和 信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的 存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常 常是重要的。分式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更 是至关重要。 数据挖掘的定义: 数据挖掘是从大量的数据中提取隐含在其中的,人们事先不知道的,但又是潜在的有用信 息和知识的过程 。数据挖掘是一门跨学科的技术,统计学,数据库技术,机器学习,模式识别,人工智能,可 视化技术,在数据挖掘中起着作用. 数据挖掘的意义: 数据挖掘能为决策者提供重要的,极有价值的信息或知识,越来越多的大中型企业开始利 用数据挖掘来分析公司的数据来辅助决策从而提高竞争力. 数据挖掘常用技术 数据挖掘系统利用的技术越多,得出的结果精确性就越高。原因很简单,对于某一种技 术不适应的问题,其它方法却可奏效。这主要取决于问题的类型以及数据的类型和规模 。主要的数据挖掘技术有: (1) 关联规则挖掘 关联规则是应用最为广泛的一种数据挖掘方法,主要目的是为了发现数据中的相关联系 ,主要应用在零售业方面,通过发现顾客购买的商品之间的联系,分析顾客的购买习惯 ,这种关联发现可以帮助零售商制定营销策略. 在描述有关关联规则时,我们来看一个有趣的故事: "尿布啤酒"的故事。 在一家超市里,有一个有趣的现象:尿布啤酒赫然摆在一起出售。但是这个奇怪的举 措却使尿布啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店 超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统, 为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分 析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值