挖掘频繁模式、关联和相关性：基本概念和方法

最新推荐文章于 2022-12-13 16:22:01 发布

wqq奋斗的小鸟

最新推荐文章于 2022-12-13 16:22:01 发布

阅读量703

点赞数 1

文章标签：关联规则挖掘频繁项目集支持度置信度

本文链接：https://blog.csdn.net/wqqGo/article/details/69347755

版权

频繁模式是频繁地出现在数据集中的模式（如项集、子序列或子结构）。
例如：频繁地同时出现在交易数据集中的商品（如香皂和洗衣液）的集合是频繁项集。

序号	交易号	香皂（a）	洗发露（b）	洗衣液（c）	牙膏（d）	简化表示
1	081201	香皂	洗发露	洗衣夜		a, b, c
2	081202	香皂		洗衣夜	牙膏	a, c, d
3	081203	香皂	洗发露			a, b,
4	081204		洗发露	洗衣夜	牙膏	b, c, d
5	081205	香皂	洗发露	洗衣夜	牙膏	a, b, c, d
6	081206	香皂	洗发露	洗衣夜	牙膏	a, b, c, d
7	081207		洗发露		牙膏	b, d
8	081208	香皂			牙膏	a, b, c, d
9	081209	香皂	洗发露			a, d
10	081210	香皂	洗发露		牙膏	a, b, d

关联规则就是描述数据事务属性项目之间的关联。

表示成X＝>Y(s%, c%)。
其中s%为支持度，即X和Y同时出现的概率，c%为置信度，即在X出现的情况下，Y也出现的概率。
举例：上表中可以知道：有6个事务中买香皂就一定买了洗发露；如第1，3，5，6，9和10条。这个概率为6/10=60%。
在买香皂的前提下（即有8个，1，2，3，5，6，8，9，10），又买洗发露的个数为6个，这个概率为6/7=85%。
那么写“买香皂就一定买了洗发露”的关联规则表示成：a=>b。此时的支持度为60%，置信度为85％。

支持度就是指定的项目组合集，在数据库中包含这个项目集的事务数占总数的比例。

项目集就是项目属性的任意组合，如表所示，这里有4个项目属性a,b,c,d,则可能有4^2即16种情况，全部没有除外就只有15种情况。
假设项目集为{a}，也就是买香皂的交易有：1，2，3，5，6，8，9，10，也就是有8个交易中有香皂，所以项目集为{a}的支持数为8，支持度为80%。
假设项目集为{a，b}，也就是同时买香皂和洗发露的交易有：1，3，5，6，9,10也就是有6个交易中同时有香皂和洗发露，所以项目集为{a，b}的支持数为6，支持度为60%。