关联分析
关联规则(association rules)是常用的无监督学习算法,目标是 发 掘 数 据 内 在 结 构 特 征 之 间 的 关 联 性 \color{red}{发掘数据内在结构特征之间的关联性} 发掘数据内在结构特征之间的关联性
一句话简介:找到特征之间有意义的关系,构建有用的特征和对应的应用。
关联规则通常分两类:一是简单关联(事物之间的普通关系),二是序列关联(考虑事物普通关系同时关注时间先后顺序)
简单关联规则
事务:我们的分析对象,可理解为一种行为,由事务标识TID和项目集合组成
项集:事务中一组项目的集合, I I I是项目全体。通常指具体的东西,如一种商品
按照实图理解,上图有4个事务, I I I有5个项目,第一个事务有三个项目,称为X是一个3-项集
关联规则一般表现形式:
X → Y ( S = s % , C = c % ) X \to Y (S = s\%,C=c\%) X→Y(S=s%,C=c%)
- X叫前项(项目和项集),Y叫后项(结论或事实)
- S = s % S = s\% S=s%表示规则支持度为 s % s\% s%, C = c % C=c\% C=c%表示规则置信度为 c % c\%