目录
目录 关联分析
理解关联分析的相关概念:关联分析、支持度、置信度、强规则、项集、频繁项集等。 掌握关联分析的基本方法:数据是事务的或关系的,如何由大量的数据中发现关联规则 ?什么样的关联规则最有趣?
案例资料
(一)案例简介
只有对商场销售数据进行分析,才能了解客户的购买特性,发现不同类别商品的共同特征及其规则,并进而通过这些规则对商场的市场定位、商品定价、新商品采购等进行决策。 本案例采用某大型超市的购物篮数据集,每一组数据表示不同的顾客一次在商场购买的商品 集合。案例的样本数据如表 1.1 所示。
表 1.1 某大型超市的购物篮样本数据
案例使用
读入数据
安装和加载聚类挖掘算法相关的包:arules,用于关联规则的数字化生成,提供 Apriori 和 Eclat
这两种快速挖掘频繁项集和关联规则算法的实现函数。
>install.packages("arules")
>library(arules)
>library(Matrx)
>shopping.df<-as.data.frame(read.csv(file="D:/GLFX/WH.csv",header=F))#读取数据
>shopping.df
数据预处理
将原始数据集转换成数据项集。
每个商品用唯一的一个代码表示如下:
I1:面包
I2:鸡蛋
I3:西红柿
I4:茄子
I5:皮带
I6:手表
所有的商品可以表示为数据项集
I: I={I1, I2, I3, I4, I5, I6}
每一条交易记录可以表示为一个数据项集: