尿布和啤酒—关联规则详解

最新推荐文章于 2025-04-24 17:46:29 发布

楚暮天流

最新推荐文章于 2025-04-24 17:46:29 发布

阅读量3.1k

点赞数 1

分类专栏：算法

原文链接：https://blog.csdn.net/ddxygq/article/details/86516460

版权

算法专栏收录该内容

21 篇文章

订阅专栏

http://www.ikeguang.com/

在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。这是数据挖掘算法关联规则在实际中的成功应用案例，那么关联规则算法的理论根基又是什么呢？

这就是关联规则的思想，即如果顾客购买一部分商品，那么他有多大可能购买其它商品？

什么是关联规则，能简单通俗解释一下吗？可以。

假设下面是商场5位顾客的购买交易记录：

交易记录	商品（代号）
1	牛奶(A)、面包(B)、饼干(C)、橙汁(D)
2	面包(B)、饼干(C)、汽水(E)、泡面(F)
3	牛奶(A)、饼干(C)、水果(G)
4	牛奶(A)、面包(B)、橙汁(D)、泡面(F)、水果(G)
5	饼干(C)、汽水(E)、水果(G)

示例数据

代号是从前往后取的，这只是一个标签几号，怎么贴标签都行！当然了，这些数据实际的数据库存储应该是每行一个用户对应一个商品的存储方式，这样有助于数据的存储与读取和后面的数据计算矩阵的生成。

当然了，计算机处理数据时，首先需要将这个不规则的表进行规则化——生成一个交易记录~商品代号的表格，才能进行进一步的计算！

构造过程是这样的：

1、获取所有商品；

2、取一个用户，如果该用户购买了商品，对应位置赋值1.否则0；

3、直到为所有用户构造了相应的商品购买向量，得到一个二维0~1二元数据表格(取值0/1)，结束。

示例数据二元数据表：

交易记录	牛奶(A)	面包(B)	饼干(C)	橙汁(D)	汽水(E)	泡面(F)	水果(G)
1	1	1	1	1	0	0	0
2	0	1	1	0	1	1	0
3	1	0	1	0	0	0	1
4	1	1	0	1	0	1	1
5	0	0	1	0	1	0	1

第一个用户购买了A、B、C、D四种商品，故对应位置为1，其它位置为0，其它交易二元向量的生成方法类似，这些交易二元向量组成了一个二元数据表。

观察这个表，我们发现好像购买牛奶（A）与面包（B）同时出现概率较大，有两次，面包（B）与饼干（C）也出现了两次。而牛奶（A）与汽水（E）没有一次同时出现过，它们之间没有直接关联！

交易记录	牛奶(A)	面包(B)	饼干(C)	橙汁(D)	汽水(E)	泡面(F)	水果(G)
1	1	1	1	1	0	0	0
2	0	1	1	0	1	1	0
3	1	0	1	0	0	0	1
4	1	1	0	1	0	1	1
5	0	0	1	0	1	0	1

牛奶与面包

交易记录	牛奶(A)	面包(B)	饼干(C)	橙汁(D)	汽水(E)	泡面(F)	水果(G)
1	1	1	1	1	0	0	0
2	0	1	1	0	1	1	0
3	1	0	1	0	0	0	1
4	1	1	0	1	0	1	1
5	0	0	1	0	1	0	1

牛奶与汽水

聪明的我们是不是就有什么想法，牛奶与面包搭在一起卖是不是更好，好像它们搭在一起吃挺好，牛奶与汽水好像就属于两种差异很大的东西了，交易中没有同时被购买过。

那么，它们相互之间又有怎样的联系呢？这个关系又是怎样衡量的呢，就像学生在老师眼中的排名是用成绩衡量的一样吧。所以就有了关联规则的一套衡量指标、规则。

衡量规则

关联规则利用支持度、置信度和增益三个衡量指标来分别表示其显著性、正确性和价值。通过最小支持度和置信度作为对应门槛，然后才能进行下一步的增益价值的评估。

什么意思呢？不懂。

试想一下，评价年级三好学生，每个班级的倒数第一也能参加评比吗，原则上是可以的，但是————有希望吗！一般会从每个班评选几个最优秀的————门槛。这就相当于最下支持度和置信度的作用。再比如说，一个组织只需要几个人参加比赛，首先需要筛选出几个最优希望、优秀的成员（这就是门槛）参加，然后进行最终的比赛，有句话说得好，参加比赛你有你的权利，人人都能参加，参不参加是一回事，获不获奖就是一回事了。

扯远了，言归正传。下面给出官方对于那三个概念的定义。

假设我们要衡量购买（X）也会购买（Y），X==>Y的概率，那么需要通过定义计算相应的几个衡量指标。

支持度：支持度衡量前提项目（X）与结果项目（Y）一起出现的概率，支持度会把一些显著性小的去掉，相当于经过一个筛选，把精华留下来，对于用户~商品二元表格就表示，商品同时出现概率。这个概率太小就没有意义了。比如，有1000条购买记录，I商品与J商品同时出现过一次，这就没有必要考虑I与Y的置信度和增益价值了。有两个菇凉，一个约十次出来了9次，一个约十次出来了一次，该考虑哪个，相信你智商没有问题，就是这个意思。