一、关联分析
关联分析是一种无监督机器学习方法,是用来分析大规模数据集中事务之间的依存性和关联性,挖掘数据集中有价值的关系,有力于对相关的事务进行预测,帮助我们进行合理的决策,在关联分析中最为典型的例子就是购物篮分析,通过发现顾客放入购物篮的不同商品之间的关系,来分析出顾客的购买习惯,通过分析哪些商品是被顾客频繁购买,来帮助零售商等制定合理的营销策略,另外关联分析还用于餐饮企业的菜品搭配、搜索引擎内容的推荐、新闻流行趋势的分析等等。
二、基本概念
1、事务:每条交易都可看作成一个事务
- 项:每条交易中的每个物品都可以称为一个项,如牛奶,面包等
- 项集:包含零个或多个项的集合称为项集,如牛奶,面包,尿布
- 规则:从项集中找出各项之间的关系,如关联规则牛奶--面包
2、支持度:指的某个商品组合出现的次数和总次数之间的比例,以百分比表示。支持度越高,代表这个组合出现的频率越大。
3、置信度:指的是当购买商品A的,会有多大概率去买商品B,是一个条件概率
4、提升度:商品A出现,对商品B的出现概率提升的程度。公式:提升度(A-B)=置信度(A-B)/支持度