提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
背景介绍
通过挖掘客户购物信息,发现存在于数据集中的关联性或相关性,进行智能推荐。
关联规则(Association Rules)
-
概念:
反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 -
Apriori算法原理:
如果某个项集是频繁的,那么它的所有子集也是频繁的。如若{2,3}是频繁的,那么{2}、{3}也一定是频繁的。反过来同样,如果一个项集是非频繁集,那么它的所有超集也是非频繁的。如若{2,3}是非频繁的,那么{0,2,3}、{1,2,3}、{0,1,2,3}也是非频繁项。所以如果计算出{2,3}的支持度是非频繁的,那么{0,2,3}、{1,2,3}、{0,1,2,3}的支持度就不用计算了。 -
项集和频繁集
项集:项集就是项的集合,例如:{矿泉水,泡面,火腿} 这是一个3项集,项集的出现频度是包含项集的事务数,把它记作支持度计数,通俗的来说,假设有三个顾客分别买了{矿泉水,泡面,火腿}、{矿泉水,泡面,火腿、牛栏山}、{矿泉水,火腿}。那么这个3项集的支持度计数就是2。
频繁项集:如果我们预定义的支持度计数是2,也就是此时的支持度计数阈值为2,而上述的3项集的支持度计数是2,所以该3项集是频繁项集。 -
支持度(support)和置信度(confidence)
支持度确定规则可以用于给定数据集的频繁程度,而置信度确定Y在包含X的事务中出现的频繁程度。
支持度(s)和置信度©这两种度量的形式定义如下:
s(X→Y)=σ(X∪Y)/N
c(X→Y)=σ(X∪Y)/σ(X)
其中, σ(X∪Y)是(X∪Y)的支持度计数,N为事务总数,σ(X)是X的支持度计数。 -
优缺点:
优点:简单易懂,数据集要求较低
缺点:候选频繁K项集数量巨大;需要对整个数据库进行扫描,非常耗时。 -
应用场景:
制定营销策略、价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。
实例:
Apriori算法来寻找频繁k项集,最小支持度设置为50%,通过两轮迭代获取到频繁3项集{2,3,5}。组合关联规则如下。
{
2,3}>>5 confidence=2/2=