关联分析的基本概念
关联分析 (Association Analysis):
在大规模数据集中寻找有趣的关系
频繁项集(Frequent Item Sets):
经常出现在一块的物品的集合,即包含0个或者多个项的集合称为项集
支持度(Support):
数据集中包含该项集的记录所占的比例,是针对项集来说的
置信度(Confidence):
出现某些物品时,另外一些物品必定出现的概率,针对规则而言
关联规则(Association Rules):
暗示两个物品之间可能存在很强的关系。形如A->B的表达式,规则A->B的度量包括支持度和置信度
项集支持度:
一个项集出现的次数与数据集所有事物数的百分比称为项集的支持度
eg:support(A⇒B)=support_count(A∪B)/N
支持度反映了A和B同时出现的概率,关联规则的支持度等于频繁集的支持度。
项集置信度:
eg:confidence(A⇒B)=support_count(A∪B)/support_count(A)
置信度反映了如果交易中包含A,则交易包含B的概率。也可以称为在A发生的条件下,发生B的概率,成为条件概率。
只有支持度和置信度(可信度)较高的关联规则才是用户感兴趣的。