在数据挖掘导论(完整版)一书中的第6章讲到了关联分析,并在6.1问题定义中提到了关联规则。
其中第203页中直接给出了公式(6-3):从包含d个项的数据集提取的可能规则总数为 R=3d−2d+1+1 ,并要求自己证明,同时也是第251页的习题5。
该公式的证明过程用到了排列组合的知识,现在把我的证明过程和大家分享一下。
证明:
对于关联规则 X→Y ( 其中X∩Y= ∅ ),X∪Y包含的项的个数可以为2,3,…,d。
假设X∪Y包含的项的个数为k,则计算此情况下可能规则数,须先从d个项中抽取k个项,即 Ckd ;再对选出的k个项选取m(m=1,2,3,…,k-1)个项作为规则的左部X,剩余k-m个项作为规则的右部Y,选法的种类数共有 C1k+C2k+C3k+⋯+Ck−1k ,即 ∑k−1m=1Cmk 。
下面来求 ∑k−1m=1Cmk 的值。首先我们知道 ∑km=0Cmk=(1+1)k=2k ,
则 ∑k−1m=1Cmk=∑