关联规则挖掘学习笔记

1.关联规则介绍

一个典型的关联规则可以表述为如下形式:
(花生酱,果冻)→(面包)
这个关联规则表示,如果购买了花生酱和果冻,那么他很可能会购买面包。这就是关联规则的基本思想。这里我们通过一个虚拟案例来理解关联规则的思想。

假设一个虚拟医院礼品店经营的商店集D={鲜花,苏打水,慰问卡,气球,毛绒玩具,块状糖},有探望病人的朋友或家人会来此购买一些东西,其中形成5条交易记录如下表所示:

交易序号 购买的商品
1 鲜花,慰问卡,苏打水
2 毛绒玩具,鲜花,气球,块状糖
3 慰问卡,块状糖,鲜花
4 毛绒玩具,气球,苏打水
4 鲜花,慰问卡,苏打水

一般的,我们称所有商品的结合D为项集,如表所示的及交易记录或购物篮子称为项集的生成集F,而由D中的一些元素构成的集合X={itemX|itemX∈D}成为D的子项集。常常依据X包含的元素个数n,将X成为n-子项集。关联规则学习的目的就是基于输入的生成集F寻找D的任意两个子项集的关联关系。若生成集F表明:当子项集X={itemX|itemX∈D}被确立时,子项集Y={itemY|itemY∈D}也能因此被确立,则输出关联规则X→Y.

关联规则的学习时无监督的,也不需要训练算法。基于项集D的生成集就可以简单的运行程序,得到关联关系。在实际生活中被应用于癌症数据分析,信用卡欺诈和保险等领域。

2.支持度、可信度、提升度

衡量关联规则有两个基本的统计度量:支持度S(support)和可信度C(confidence),关联规则X→Y的支持度是指子项集X和子项 集Y在项集D的生成集F中同时出现的概率,这是关联规则重要性的衡量,支持度越高,表示关联规则越具有代表性,若用|F|表示生成集元素的个数,|X ∧ \wedge Y|表示在生成集F中同时包含X和Y元素的个数,则关联规则X→Y的支持度的表达式为: S ( X → Y ) = ∣ X ∧ Y ∣ ∣ F ∣ S(X\rightarrow Y)=\frac{\left | X\wedge Y \right |}{\left | F \right |} S(XY)=FXY关联规则X→Y的可信度表示在生成集F中的子项集Y随着子项集X的出现的比例。用|X|表示在生成集F中包含子项集X的元素个数,则关联规则X→Y的可信度的表达书为: C ( X → Y ) = ∣ X ∧ Y ∣ ∣ X ∣ C(X\rightarrow Y)=\frac{\left | X\wedge Y \right |}{\left | X \right |} C(XY)=XXY可信度用于度量规则X→Y的后项与前项依赖程度,可信度越高,说明X发生引起Y的发生的可能性就越高,体现了该规则的越策能力或准确度的度量。

关联规则X→Y的提升度用于度量关联规则的有效性程度,其表达式为 L ( X → Y ) = C ( X → Y ) ∣ Y ∣ ∣ F ∣ L(X\rightarrow Y)=\frac{C(X\rightarrow Y)}{\frac{|Y|}{|F|}} L(XY)=

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值