Apriori算法原理及实现

Apriori算法是挖掘布尔型关联规则的经典算法,通过逐层搜索和剪枝找到频繁项集。它降低了暴力枚举的时间复杂度,但面临不断寻找候选集和大量I/O操作的问题。该文介绍了算法原理、支持度和置信度的概念,以及其在购物篮分析中的应用。
摘要由CSDN通过智能技术生成

原创作品,出自 “晓风残月xj” 博客,欢迎转载,转载时请务必注明出处(http://blog.csdn.net/xiaofengcanyuexj)。

由于各种原因,可能存在诸多不足,欢迎斧正!

        有这样一个故事:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺 手买回自己爱喝的啤酒,因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加,并一直为众商家所津津乐道。"尿布和啤酒":关联规则的一个非常有名的故事。关联规则的是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析。

      提到关联规则,一个概念很重要▬频繁项集:支持度大于等于最小支持度项集。有两个比较重要的度量参数:

1)、支持度
支持度是交易集同时包含X和Y的交易数与总交易数|D|之比。
   support(X⇒Y)=count(X⋃Y)/|D|
支持度反映了X、Y同时出现的概率。关联规则的支持度等于频繁集的支持度。
2)、置信度
置信度是指包含X和Y的交易数与包含X的交易数之比。即:
    confidence(X⇒Y)=support(X⇒Y)/support(X)
可信度反映了如果交易中包含X,则交易包含Y的概率。一般来说,只有支持度和可信度较高的关联规则才是用户感兴趣的。

     关联规则寻找频繁项集的Apriori算法,Apriori算法是挖掘布尔型关联规则频繁项集的最为经典、最为基本的算法,该算法需要不断寻找候选集,然后剪枝即去掉包含非频繁子集的候选集

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值