前言
情報分析・管理論第5回〜第7回の復習
这篇博文是京都大学情报学研究科2021年后期,情报分析・管理论5~7回的总结的第一部分。
本文
第5回:关联规则学习(association rule learning),朴素贝叶斯分类器(naive bayes classifier)
第6回:层次聚类(hierarchical clustering),非层次聚类(non-hierarchical clustering) ,SOM (self-organizing map)
第7回:决策树(decision tree),支持向量机(support vector machine)(待更新)
关联规则学习(association rule learning)
对于一个形如这样的数据集
假设咱们现在在一个超市里,变量A、B、C、D是商品,每行是顾客的购买记录,0是未购买,1是已购买
A | B | C | D |
---|---|---|---|
1 | 0 | 0 | 1 |
0 | 1 | 1 | 1 |
1 | 1 | 0 | 0 |
0 | 1 | 1 | 1 |
目标:找到商品A,B,C,D之间的关系
关系评价指标:
-
支持度(support):
s u p p ( A ) = 购 买 了 商 品 A 的 顾 客 所 有 顾 客 = 1 2 supp(A)=\frac{购买了商品A的顾客}{所有顾客}=\frac{1}{2} supp(A)=所有顾客购买了商品A的顾客=21s u p p ( A , B ) = 同 时 购 买 了 商 品 A 和 B 的 顾 客 所 有 顾 客 = 1 4 supp(A,B)=\frac{同时购买了商品A和B的顾客}{所有顾客}=\frac{1}{4} supp(A,B)=所有顾客同时购买了商品A和B的顾客=41
一般的,
变量 x 1 x1 x1的支持度的定义: s u p p ( x 1 ) = P ( x 1 = 1 ) supp(x1)=P(x1=1) supp(x1)=P(x1=1)
变量 x 1 x1 x1对 x 2 x2 x2的支持度的定义: s u p p ( x 1 , x 2 ) = P ( x 1 = 1 , x 2 = 1 ) supp(x1,x2)=P(x1=1,x2=1) supp(x1,x2)=P(x1=1,x2=1)支持度的单调性:
X ⊆ Y 则 s u p p ( X ) ≥ s u p p ( Y ) X\subseteq{Y} 则 supp(X)≥supp(Y) X⊆Y则supp(X)≥supp(Y)
e.g.
s u p p ( A ) = 1 2 s u p p ( A , B ) = 1 4 s u p p ( A , B , C ) = 0 supp(A)=\frac{1}{2}\\supp(A,B)=\frac{1}{4}\\supp(A,B,C)=0 supp(A)=21supp(A,B)=41supp(A,B,C)=0 -
置信度(confidence) 此置信度不同于假设检验里的置信度
c o n f ( A = > B ) = s u