关联规则挖掘学习笔记

最新推荐文章于 2022-05-19 22:34:50 发布

weixin_43822286

最新推荐文章于 2022-05-19 22:34:50 发布

阅读量712

点赞数 2

本文链接：https://blog.csdn.net/weixin_43822286/article/details/89922972

版权

1.关联规则介绍

一个典型的关联规则可以表述为如下形式：
（花生酱，果冻）→（面包）
这个关联规则表示，如果购买了花生酱和果冻，那么他很可能会购买面包。这就是关联规则的基本思想。这里我们通过一个虚拟案例来理解关联规则的思想。

假设一个虚拟医院礼品店经营的商店集D={鲜花，苏打水，慰问卡，气球，毛绒玩具，块状糖}，有探望病人的朋友或家人会来此购买一些东西，其中形成5条交易记录如下表所示：

交易序号	购买的商品
1	鲜花，慰问卡，苏打水
2	毛绒玩具，鲜花，气球，块状糖
3	慰问卡，块状糖，鲜花
4	毛绒玩具，气球，苏打水
4	鲜花，慰问卡，苏打水

一般的，我们称所有商品的结合D为项集，如表所示的及交易记录或购物篮子称为项集的生成集F，而由D中的一些元素构成的集合X={itemX|itemX∈D}成为D的子项集。常常依据X包含的元素个数n，将X成为n-子项集。关联规则学习的目的就是基于输入的生成集F寻找D的任意两个子项集的关联关系。若生成集F表明：当子项集X={itemX|itemX∈D}被确立时，子项集Y={itemY|itemY∈D}也能因此被确立，则输出关联规则X→Y.

关联规则的学习时无监督的，也不需要训练算法。基于项集D的生成集就可以简单的运行程序，得到关联关系。在实际生活中被应用于癌症数据分析，信用卡欺诈和保险等领域。

2.支持度、可信度、提升度

衡量关联规则有两个基本的统计度量：支持度S(support)和可信度C(confidence),关联规则X→Y的支持度是指子项集X和子项集Y在项集D的生成集F中同时出现的概率，这是关联规则重要性的衡量，支持度越高，表示关联规则越具有代表性，若用|F|表示生成集元素的个数，|X $\wedge$ Y|表示在生成集F中同时包含X和Y元素的个数，则关联规则X→Y的支持度的表达式为： $S(X\rightarrow Y)=\frac{\left | X\wedge Y \right |}{\left | F \right |}$ 关联规则X→Y的可信度表示在生成集F中的子项集Y随着子项集X的出现的比例。用|X|表示在生成集F中包含子项集X的元素个数，则关联规则X→Y的可信度的表达书为： $C(X\rightarrow Y)=\frac{\left | X\wedge Y \right |}{\left | X \right |}$ 可信度用于度量规则X→Y的后项与前项依赖程度，可信度越高，说明X发生引起Y的发生的可能性就越高，体现了该规则的越策能力或准确度的度量。

关联规则X→Y的提升度用于度量关联规则的有效性程度，其表达式为 $L(X\rightarrow Y)=\frac{C(X\rightarrow Y)}{\frac{|Y|}{|F|}}$

最低0.47元/天解锁文章

weixin_43822286

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
关联规则挖掘学习笔记

1.关联规则介绍一个典型的关联规则可以表述为如下形式：（花生酱，果冻）→（面包）这个关联规则表示，如果购买了花生酱和果冻，那么他很可能会购买面包。这就是关联规则的基本思想。这里我们通过一个虚拟案例来理解关联规则的思想。假设一个虚拟医院礼品店经营的商店集D={鲜花，苏打水，慰问卡，气球，毛绒玩具，块状糖}，有探望病人的朋友或家人会来此购买一些东西，其中形成5条交易记录如下表所示：交...
复制链接

扫一扫