关联规则挖掘-Apriori算法-考试题目（无算法原理讲解）

本文链接：https://blog.csdn.net/weixin_44021274/article/details/117923247

本文详细解析了如何在给定4条记录的场景下，寻找频繁1、2、3项集，并利用支持度和可信度找出强关联规则。通过实例演示了频繁项集的计算过程，以及如何运用这些规则于实际问题中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
1.
解答：

分析：找频繁项集，要看的“标杆”是支持度50%
题目中给出的记录数是4，
所以，4*50%=2，要满足n>=2
首先找频繁1项集，
比如：1一共在记录中出现2次，满足n>=2，就填入表格；
2一共出现3次，满足，填入表格；
3出现3次，满足；
4出现1次，不满足，不填入表格；
5出现3次，满足，填入表格。

∴频繁1项集为：

在这里插入图片描述

分析：
接下来找频繁2项集，频繁2项集要根据频繁1项集来找，把频繁1项集中的记录组合起来，
比如：1和2组合成{1，2}，{1，2}在题目给出的记录中只出现了1次，在第3行记录出现，不满足，不填入表格；
{1，3}出现2次，满足；
{1，5}出现1次，不满足；
{2，3}出现2次，满足；
{2，5}出现3次，满足；
{3，5}出现2次，满足；

所以频繁2项集为：
在这里插入图片描述

分析：继续找频繁3项集，根据频繁2项集来找频繁3项集，组合情况有
{1，3，2，3}=》{1，2，3}
{1，3，2，5}=》{1，2，3，5} 4项，不符合3项集，不用考虑
{1，3，3，5}=》{1，3，5}
{1，3，2，5}=》{1，2，3，5} 4项，不符合3项集，不用考虑
{2，3，3，5}=》{2，3，5}
{2，3，2，5}=》{2，3，5}
{3，5，2，5}=》{2，3，5}
这样依次找到每个组合在题中给的表中出现的次数，符合条件的填入频繁3项集中。

PS：这里提供一个简便的方法，在找频繁3项集的时候，找频繁2项集中记录的首项相同的，让它们进行组合再去找出现的次数，可以减少工作量。
如：在频繁2项集中，{1，3}和{2，3}的首项不相同，就没必要合并，也就不用去找合并后的出现次数了。

所以，频繁3项集如下：
在这里插入图片描述

接下来就不用去找频繁4项集了，因为找到的频繁3项集中只有一条记录，也就是组合不出有4个数的一个集合了，也就没有符合频繁4项集的了。

解答：
找强关联规则的“标杆”是可信度 70%。
先看频繁3项集，根据频散3项集可以有：
2∧3=>5
3∧2=>5
2∧5=>3
5∧2=>3
3∧5=>2
5∧3=>2
计算方法如下，对第一个{2，3，5} / {2，3}={2,3,5}出现的次数 / {2,3}出现的次数=2/2=1=100%
100%>70% 满足，属于强关联规则。
对第二个，{3，2，5} / {3,2} ={3,2,5}出现的次数/{3，2}出现的次数=1/1=100%
对第三个，{2，5，3}/{2，5}={2,5,3}出现的次数/{2，5}出现的次数=2/3=66.7%<70%不满足
…
依次类推，逐个计算。
再看频繁2项集，则有：
1=>3
3=>1
2=>3
3=>2
2=>5
5=>2
3=>5
5=>3
对第一个，计算方法为{1，3} / {1}={1,3}出现的次数 / {1}出现的次数 =2/2=100%>70% 满足，是强关联规则。
第二个，{1，3} / {3}={1,3}出现的次数 / {3}出现的次数 = 2 / 3=66.7%<70%
不满足，不是强关联规则。
…
依次计算完成即可得到所有的强关联规则。
至此，第二问做完。