实验三 Apriori算法的频繁项集产生

最新推荐文章于 2024-04-06 10:03:39 发布

云上成理

最新推荐文章于 2024-04-06 10:03:39 发布

阅读量622

点赞数 1

文章标签：算法大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62439904/article/details/131199267

版权

源码-公众号云上成理回复大数据实验三自动获取

一．实验目的

1.能够使用简单的的Apriori算法的统计性能指标，理解大数据的关联算法。

2.掌握常用的Apriori算法原理，了解Apriori算法的特点。

3.能够进行实验学会简单应用。

二．实验内容

1.探索准备数据(对汽车评估进行关联分析)。

2.对数据处理，用算法描述。

3.数据的结果分析。

三．实验原理

1. Apriori算法

Apriori使用一种称为逐层搜索的迭代方法，k项集用于探索（k+1）项集。首先，通过扫描数据库，累计每个项的计数，并搜集满足最小支持度的项，找出频繁1项集的集合。该集合记作L1。然后，L1用于找频繁2项集的集合L2，L2用于找L3，如此下去，直到不能找到频繁k项集。找每个Lk需要依次数据库全扫描。

提高频繁项集逐层产生的效率

Apriori性质：频繁项集所有非空子集也必须是频繁的。

实验内容和步骤

实验内容

探索准备数据(对汽车评估进行关联分析)

图一

图一是加载数据集，也就是汽车数据的函数。这几维度分别为:(销售价格buying,维护价格maint,门的数量door,座位数量persons,后备箱大小lug_boot,安全系数safety,类值Class Values）。

通过记事本打开car.data文件，也就是图二所示。

q buying：取值范围是vhigh、high、med、low；

q maint：取值范围是vhigh、high、med、low；

q doors：取值范围是2、3、4、5等；

q persons：取值范围是2、4等；

q lug_boot：取值范围是small、med、big；

q safety：取值范围是low、med、high。

Class Values: 取值范围是unacc、acc、good、vgood.四类

数据示例：vhigh,vhigh,2,2,small,low,unacc

图二

对数据处理，用算法描述

Apriori算法主要包括以下几个重要步骤，上图一就是导入数据，图三主要就是生成所有频繁项目集。频繁项目集(大于或等于最小支持度的非空子集)。

图三

图四是从频繁项目集中生成大的规则，最终返回一个包含所有规则的列表。

图四

图五就是Apriori算法的主函数了。

图五

数据的结果分析

图六

略

先通过以下例子介绍一下置信度，因为上图结果中表现形式为置信度。

{苹果—>啤酒}的置信度=(支持度{苹果，啤酒}/支持度{苹果})3/4，即75%。

置信度有一个缺点，那就是它可能会错估某个关联规则的重要性。只考虑了苹果的购买频率，而并未考虑啤酒的购买频率。如果啤酒也很受欢迎(支持度很高)，那苹果的交易显然很有可能也包含啤酒，这会抬高置信度指标。

通过图六，图七，图八，可以看到，提高最小支持度，和提高最小置信度，频繁项集的数目会减少，甚至不出现频繁3项集。

最后通过观察关联准则

通过这个图可以看见置信度为1，为最大值，说明({'safety: low'})和({'Class Values: unacc'})的数据关联性很高，因为安全度不高，同时人们的满意度也不高。

上图可以看出置信度为0.37左右，说明({'Class Values: unacc'})和({'lug_boot: small'})之间的相关性不高，后备箱的大小和人们的满意度没有太大的关系

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

云上成理 CSDN认证博客专家 CSDN认证企业博客

码龄3年

31: 原创

52万+: 周排名

5万+: 总排名

4万+: 访问

: 等级

420: 积分

29: 粉丝

65: 获赞

5: 评论

250: 收藏

私信

关注

热门文章

分类专栏

vue 2篇
840数据结构 4篇
HTML5+CSS3 2篇

最新评论

输出希腊字母表(JAVA实验)
2301_82318257: 用idea为什么他显示第五行第六行的start end 是冗余的
实验二常用的HDFS操作
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/615809332。
cmd中输入javac和java -version都没反应的解决方案
炽雪琉璃: 呃呃，切忌把环境变量放在最顶部，可以用绝对路径
cmd中输入javac和java -version都没反应的解决方案
炽雪琉璃: 感谢！我是把文件名改了重新配置环境变量，直接在终端输入java和java -version没找到以前的文件，但在文件目录下打开终端输入java和java -version就可以刷新终端查询的路径了。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

云上成理 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。