挖掘用户购物信息--关联规则

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

背景介绍

通过挖掘客户购物信息,发现存在于数据集中的关联性或相关性,进行智能推荐。

关联规则(Association Rules)

  1. 概念
    反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。

  2. Apriori算法原理:
    如果某个项集是频繁的,那么它的所有子集也是频繁的。如若{2,3}是频繁的,那么{2}、{3}也一定是频繁的。反过来同样,如果一个项集是非频繁集,那么它的所有超集也是非频繁的。如若{2,3}是非频繁的,那么{0,2,3}、{1,2,3}、{0,1,2,3}也是非频繁项。所以如果计算出{2,3}的支持度是非频繁的,那么{0,2,3}、{1,2,3}、{0,1,2,3}的支持度就不用计算了。

  3. 项集和频繁集
    项集:项集就是项的集合,例如:{矿泉水,泡面,火腿} 这是一个3项集,项集的出现频度是包含项集的事务数,把它记作支持度计数,通俗的来说,假设有三个顾客分别买了{矿泉水,泡面,火腿}、{矿泉水,泡面,火腿、牛栏山}、{矿泉水,火腿}。那么这个3项集的支持度计数就是2。
    频繁项集:如果我们预定义的支持度计数是2,也就是此时的支持度计数阈值为2,而上述的3项集的支持度计数是2,所以该3项集是频繁项集。

  4. 支持度(support)和置信度(confidence)
    支持度确定规则可以用于给定数据集的频繁程度,而置信度确定Y在包含X的事务中出现的频繁程度。
    支持度(s)和置信度©这两种度量的形式定义如下:
    s(X→Y)=σ(X∪Y)/N
    c(X→Y)=σ(X∪Y)/σ(X)
    其中, σ(X∪Y)是(X∪Y)的支持度计数,N为事务总数,σ(X)是X的支持度计数。

  5. 优缺点:
    优点:简单易懂,数据集要求较低
    缺点:候选频繁K项集数量巨大;需要对整个数据库进行扫描,非常耗时。

  6. 应用场景:
    制定营销策略、价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。

实例:
Apriori算法来寻找频繁k项集,最小支持度设置为50%,通过两轮迭代获取到频繁3项集{2,3,5}。组合关联规则如下。

  {
  2,3}>>5 confidence=2/2=
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值