挖掘用户购物信息--关联规则

奔跑的小绵羊02

已于 2022-03-20 17:12:22 修改

阅读量345

点赞数 1

文章标签：数据挖掘 python 算法

于 2022-03-10 21:45:56 首次发布

本文链接：https://blog.csdn.net/weixin_47662930/article/details/123412354

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
- 背景介绍
- 关联规则(Association Rules)
一、项目目的
二、操作步骤
三、结论与总结建议

前言

背景介绍

通过挖掘客户购物信息，发现存在于数据集中的关联性或相关性，进行智能推荐。

关联规则(Association Rules)

概念：
反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。
Apriori算法原理：
如果某个项集是频繁的，那么它的所有子集也是频繁的。如若{2,3}是频繁的，那么{2}、{3}也一定是频繁的。反过来同样，如果一个项集是非频繁集，那么它的所有超集也是非频繁的。如若{2,3}是非频繁的，那么{0,2,3}、{1,2,3}、{0,1,2,3}也是非频繁项。所以如果计算出{2,3}的支持度是非频繁的，那么{0,2,3}、{1,2,3}、{0,1,2,3}的支持度就不用计算了。
项集和频繁集
项集：项集就是项的集合，例如：{矿泉水，泡面，火腿} 这是一个3项集，项集的出现频度是包含项集的事务数，把它记作支持度计数，通俗的来说，假设有三个顾客分别买了{矿泉水，泡面，火腿}、{矿泉水，泡面，火腿、牛栏山}、{矿泉水，火腿}。那么这个3项集的支持度计数就是2。
频繁项集：如果我们预定义的支持度计数是2，也就是此时的支持度计数阈值为2，而上述的3项集的支持度计数是2，所以该3项集是频繁项集。
支持度(support)和置信度(confidence)
支持度确定规则可以用于给定数据集的频繁程度，而置信度确定Y在包含X的事务中出现的频繁程度。
支持度(s)和置信度©这两种度量的形式定义如下：
s(X→Y)=σ(X∪Y)/N
c(X→Y)=σ(X∪Y)/σ(X)
其中， σ(X∪Y)是(X∪Y)的支持度计数，N为事务总数，σ(X)是X的支持度计数。
优缺点：
优点：简单易懂，数据集要求较低
缺点：候选频繁K项集数量巨大；需要对整个数据库进行扫描，非常耗时。
应用场景：
制定营销策略、价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。

实例：
Apriori算法来寻找频繁k项集，最小支持度设置为50%，通过两轮迭代获取到频繁3项集{2,3,5}。组合关联规则如下。

  {
  2,3}>>5 confidence=2/2=

最低0.47元/天解锁文章

奔跑的小绵羊02

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
挖掘用户购物信息--关联规则

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言背景介绍关联规则(Association Rules)一、项目目的二、操作步骤1.引入库2.读入数据3.数据清洗与加工总结前言背景介绍通过挖掘客户购物信息，发现存在于数据集中的关联性或相关性，进行智能推荐。关联规则(Association Rules)概念：反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。Apriori算法原理.
复制链接

扫一扫