机器学习实战学习笔记(十)使用Apriori算法进行关联分析

本文介绍了关联分析的基础知识,包括频繁项集和关联规则。详细讲解了Apriori算法的原理,如何生成候选项集和组织完整的算法流程。通过实例展示了如何从频繁项集中挖掘关联关系,并应用于发现毒蘑菇的特征。最后总结了关联分析在大数据挖掘中的重要性和Apriori算法的效率问题。
摘要由CSDN通过智能技术生成

PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)
在这里插入图片描述
  从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis) 或者关联规则学习(association rule learning)

1 关联分析

                                               Apriori算法
优点:易编码实现。
缺点:在大数据集上可能较慢。
使用数据类型:数值型或者标称型数据。

  关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以由两种形式:频繁项集或者关联关系。频繁项集(frequent item sets) 是经常出现在一块的物品的集合,关联规则(association rules) 暗示两种物品之间可能存在很强的关系。

交易号码 商品
0 豆奶,莴苣
1 莴苣,尿布,葡萄酒,甜菜
2 豆奶,尿布,葡萄酒,橙汁
3 莴苣,豆奶,尿布,葡萄酒
4 莴苣,豆奶,尿布,橙汁

一个项集的支持度(support) 被定义为数据集中包含该项集的记录所占的比例。如,{豆奶}的支持度为4/5,{豆奶,尿布}的支持度为3/5。
  可信度或置信度(confidence) 是针对一条诸如{尿布}→{葡萄酒}的关联关系定义的。这条规则的可信度被定义为 支 持 度 ( { 尿 布 , 葡 萄 酒 } ) 支 持 度 ( { 尿 布 } ) = 3 / 5 4 / 5 = 3 4 = 0.75 \frac{支持度(\{尿布,葡萄酒\})}{支持度(\{尿布\})}=\frac{3/5}{4/5}=\frac{3}{4}=0.75 ({ 尿})({ 尿})=4/53/5=43=

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值