挖掘了关联规则后,哪些规则是用户感兴趣的?强关联规则是否就是有趣的?
我们从下面的例子中来了解强关联规则到底是怎么一回事。
买游戏 | 不买游戏 | 合计 | |
买录像 | 4000 | 3500 | 7500 |
不买录像 | 2000 | 500 | 2500 |
合计 | 6000 | 4000 | 10000 |
由上表可以得出:buys(X,"computer games")=>buys(X,"videos")[40%,66.7%](这是一个相当强的关联规则,但却不是一个正确的关联规则)
但其实全部人口中购买录像带的人数是75%,比66.7%多;事实上购买了电子游戏之后大家都不愿意买录像带了,这就是为什么买了电子游戏之后,买录像带的概率下降的原因。这里录像带和游戏是负相关的。(如果我们单纯的根据我们挖掘的结果,则我们就会得出买了电子游戏之后,人们还倾向于购买录像带。这刚好和实际相反)
可见A=》B的置信度有欺骗性,它只是给出A,B条件概率的估计,而不度量A,B间蕴含的实际强度
我们怎么才能正确的计算A,B之间的相关性呢?