基本概念
频繁模式:
频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。
例如:频繁地同时出现在交易数据集中的商品(如香皂和洗衣液)的集合是频繁项集。
序号 | 交易号 | 香皂(a) | 洗发露(b) | 洗衣液(c) | 牙膏(d) | 简化表示 |
---|---|---|---|---|---|---|
1 | 081201 | 香皂 | 洗发露 | 洗衣夜 | a, b, c | |
2 | 081202 | 香皂 | 洗衣夜 | 牙膏 | a, c, d | |
3 | 081203 | 香皂 | 洗发露 | a, b, | ||
4 | 081204 | 洗发露 | 洗衣夜 | 牙膏 | b, c, d | |
5 | 081205 | 香皂 | 洗发露 | 洗衣夜 | 牙膏 | a, b, c, d |
6 | 081206 | 香皂 | 洗发露 | 洗衣夜 | 牙膏 | a, b, c, d |
7 | 081207 | 洗发露 | 牙膏 | b, d | ||
8 | 081208 | 香皂 | 牙膏 | a, b, c, d | ||
9 | 081209 | 香皂 | 洗发露 | a, d | ||
10 | 081210 | 香皂 | 洗发露 | 牙膏 | a, b, d |
关联规则:
关联规则就是描述数据事务属性项目之间的关联。
- 表示成X=>Y(s%, c%)。
- 其中s%为支持度,即X和Y同时出现的概率,c%为置信度,即在X出现的情况下,Y也出现的概率。
- 举例:上表中可以知道:有6个事务中买香皂就一定买了洗发露;如第1,3,5,6,9和10条。这个概率为6/10=60%。
在买香皂的前提下(即有8个,1,2,3,5,6,8,9,10),又买洗发露的个数为6个,这个概率为6/7=85%。
那么写“买香皂就一定买了洗发露”的关联规则表示成:a=>b。此时的支持度为60%,置信度为85%。
支持度:
支持度就是指定的项目组合集,在数据库中包含这个项目集的事务数占总数的比例。
- 项目集就是项目属性的任意组合,如表所示,这里有4个项目属性a,b,c,d,则可能有4^2即16种情况,全部没有除外就只有15种情况。
- 假设项目集为{a},也就是买香皂的交易有:1,2,3,5,6,8,9,10,也就是有8个交易中有香皂,所以项目集为{a}的支持数为8,支持度为80%。
假设项目集为{a,b},也就是同时买香皂和洗发露的交易有:1,3,5,6,9,10也就是有6个交易中同时有香皂和洗发露,所以项目集为{a,b}的支持数为6,支持度为60%。
置信度:
置信度是在X出现的情况下,Y也出现的概率。计算公式为:X和Y的支持数/X的支持数。
- 规则:{a,b}=>{c}(30%, 50%), {a,b,c}的支持数为3个,{a,b}的支持数为6个,规则置信度为50%。
频繁项目集:
频繁项目集就是指项目集的支持度大于人们指定的支持度。
- 举例:项目集为{a,b}的支持数为6,支持度为60%,如果人们指定的支持度为60%,则它为频繁项目集。如果指定的支持度为61%,它为非频繁项目集.
本人初学,敬请指教。