1.关联规则介绍
一个典型的关联规则可以表述为如下形式:
(花生酱,果冻)→(面包)
这个关联规则表示,如果购买了花生酱和果冻,那么他很可能会购买面包。这就是关联规则的基本思想。这里我们通过一个虚拟案例来理解关联规则的思想。
假设一个虚拟医院礼品店经营的商店集D={鲜花,苏打水,慰问卡,气球,毛绒玩具,块状糖},有探望病人的朋友或家人会来此购买一些东西,其中形成5条交易记录如下表所示:
交易序号 | 购买的商品 |
---|---|
1 | 鲜花,慰问卡,苏打水 |
2 | 毛绒玩具,鲜花,气球,块状糖 |
3 | 慰问卡,块状糖,鲜花 |
4 | 毛绒玩具,气球,苏打水 |
4 | 鲜花,慰问卡,苏打水 |
一般的,我们称所有商品的结合D为项集,如表所示的及交易记录或购物篮子称为项集的生成集F,而由D中的一些元素构成的集合X={itemX|itemX∈D}成为D的子项集。常常依据X包含的元素个数n,将X成为n-子项集。关联规则学习的目的就是基于输入的生成集F寻找D的任意两个子项集的关联关系。若生成集F表明:当子项集X={itemX|itemX∈D}被确立时,子项集Y={itemY|itemY∈D}也能因此被确立,则输出关联规则X→Y.
关联规则的学习时无监督的,也不需要训练算法。基于项集D的生成集就可以简单的运行程序,得到关联关系。在实际生活中被应用于癌症数据分析,信用卡欺诈和保险等领域。
2.支持度、可信度、提升度
衡量关联规则有两个基本的统计度量:支持度S(support)和可信度C(confidence),关联规则X→Y的支持度是指子项集X和子项 集Y在项集D的生成集F中同时出现的概率,这是关联规则重要性的衡量,支持度越高,表示关联规则越具有代表性,若用|F|表示生成集元素的个数,|X ∧ \wedge ∧Y|表示在生成集F中同时包含X和Y元素的个数,则关联规则X→Y的支持度的表达式为: S ( X → Y ) = ∣ X ∧ Y ∣ ∣ F ∣ S(X\rightarrow Y)=\frac{\left | X\wedge Y \right |}{\left | F \right |} S(X→Y)=∣F∣∣X∧Y∣关联规则X→Y的可信度表示在生成集F中的子项集Y随着子项集X的出现的比例。用|X|表示在生成集F中包含子项集X的元素个数,则关联规则X→Y的可信度的表达书为: C ( X → Y ) = ∣ X ∧ Y ∣ ∣ X ∣ C(X\rightarrow Y)=\frac{\left | X\wedge Y \right |}{\left | X \right |} C(X→Y)=∣X∣∣X∧Y∣可信度用于度量规则X→Y的后项与前项依赖程度,可信度越高,说明X发生引起Y的发生的可能性就越高,体现了该规则的越策能力或准确度的度量。
关联规则X→Y的提升度用于度量关联规则的有效性程度,其表达式为 L ( X → Y ) = C ( X → Y ) ∣ Y ∣ ∣ F ∣ L(X\rightarrow Y)=\frac{C(X\rightarrow Y)}{\frac{|Y|}{|F|}} L(X→Y)=