数据挖掘与分析课程笔记
- 参考教材:Data Mining and Analysis : MOHAMMED J.ZAKI, WAGNER MEIRA JR.
文章目录
- 数据挖掘与分析课程笔记(目录)
- 数据挖掘与分析课程笔记(Chapter 1)
- 数据挖掘与分析课程笔记(Chapter 2)
- 数据挖掘与分析课程笔记(Chapter 5)
- 数据挖掘与分析课程笔记(Chapter 7)
- 数据挖掘与分析课程笔记(Chapter 14)
- 数据挖掘与分析课程笔记(Chapter 15)
- 数据挖掘与分析课程笔记(Chapter 20)
- 数据挖掘与分析课程笔记(Chapter 21)
笔记目录
Chapter 1 :准备
1.1 数据矩阵
Def.1. 数据矩阵是指一个
(
n
×
d
)
(n\times d)
(n×d) 的矩阵
D
=
(
X
1
X
2
⋯
X
d
x
1
x
11
x
12
⋯
x
1
d
x
2
x
21
x
22
⋯
x
2
d
⋮
⋮
⋮
⋱
⋮
x
n
x
n
1
x
n
2
⋯
x
n
d
)
\mathbf{D}=\left(\begin{array}{c|cccc} & X_{1} & X_{2} & \cdots & X_{d} \\ \hline \mathbf{x}_{1} & x_{11} & x_{12} & \cdots & x_{1 d} \\ \mathbf{x}_{2} & x_{21} & x_{22} & \cdots & x_{2 d} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \mathbf{x}_{n} & x_{n 1} & x_{n 2} & \cdots & x_{n d} \end{array}\right)
D=⎝
⎛x1x2⋮xnX1x11x21⋮xn1X2x12x22⋮xn2⋯⋯⋯⋱⋯Xdx1dx2d⋮xnd⎠
⎞
行:实体,列:属性
Ex. 鸢尾花数据矩阵
(
萼片长
萼片宽
花瓣长
花瓣宽
类别
X
1
X
2
X
3
X
4
X
5
x
1
5.9
3.0
4.2
1.5
云芝
)
\left(\begin{array}{c|ccccc} & 萼片长 & 萼片宽 & 花瓣长 & 花瓣宽 & 类别 \\ & X_{1} & X_{2} & X_{3} & X_{4} & X_{5} \\ \hline \mathbf{x}_{1} & 5.9 & 3.0 & 4.2 & 1.5 & 云芝 \\ \end{array}\right)
⎝
⎛x1萼片长X15.9萼片宽X23.0花瓣长X34.2花瓣宽X41.5类别X5云芝⎠
⎞
1.2 属性
Def.2.
- 数值属性 是指取实数值(或整数值)的属性。
- 若数值属性的取值范围是有限集或无限可数集,则称之为离散数值属性。若只有两种取值,则称为二元属性。
- 若数值属性的取值范围不是离散的则称为连续数值属性。
Def.3. 类别属性 是指取值为符号的属性。
1.3 代数与几何的角度
假设
D
\mathbf{D}
D 中所有属性均为数值的,即
x
i
=
(
x
i
1
,
x
i
2
,
…
,
x
i
d
)
T
∈
R
d
,
i
=
1
,
⋯
,
n
\mathbf{x}_{i}=\left(x_{i 1}, x_{i 2}, \ldots, x_{i d}\right)^{T} \in \mathbb{R}^{d},i=1,\cdots,n
xi=(xi1,xi2,…,xid)T∈Rd,i=1,⋯,n
或
x
j
=
(
x
1
j
,
x
2
j
,
…
,
x
n
j
)
T
∈
R
n
,
j
=
1
,
⋯
,
d
\mathbf{x}_{j}=\left(x_{1 j}, x_{2j}, \ldots, x_{n j}\right)^{T} \in \mathbb{R}^{n},j=1,\cdots,d
xj=(x1j,x2j,…,xnj)T∈Rn,j=1,⋯,d
☆ 默认向量为列向量。
1.3.1 距离与角度
设 a , b ∈ R d \mathbf{a}, \mathbf{b} \in \mathbb{R}^{d} a,b∈Rd ,
- 点乘: a T b = ∑ i = 1 d a i b i \mathbf{a}^{T}\mathbf{b}=\sum\limits_{i=1}^{d} a_ib_i aTb=i=1∑daibi
- 长度(欧氏范数): ∣ a ∣ = a T a = ∑ i = 1 d a i 2 \left | \mathbf{a} \right | =\sqrt{\mathbf{a}^{T}\mathbf{a} } =\sqrt{\sum\limits_{i=1}^{d} a_i^2} ∣a∣=aTa=i=1∑dai2,单位化: a ∣ a ∣ \frac{\mathbf{a}}{|\mathbf{a}|} ∣a∣a
- 距离: δ ( a , b ) = ∣ ∣ a − b ∣ ∣ = ∑ i = 1 d ( a i − b i ) 2 \delta(\mathbf{a},\mathbf{b})=||\mathbf{a}-\mathbf{b}||=\sqrt{\sum\limits_{i=1}^{d}(a_i-b_i)^2} δ(a,b)=∣∣a−b∣∣=i=1∑d(ai−bi)2
- 角度: c o s θ = ( a ∣ a ∣ ) T ( b ∣ b ∣ ) cos \theta =(\frac{\mathbf{a}}{|\mathbf{a}|})^{T}(\frac{\mathbf{b}}{|\mathbf{b}|}) cosθ=(∣a∣a)T(∣b∣b),即单位化后作点乘
- 正交: a \mathbf{a} a 与 b \mathbf{b} b 正交,若 a T b = 0 \mathbf{a}^{T}\mathbf{b}=0 aTb=0
1.3.2 算术平均与总方差
Def.3.
-
算术平均: m e a n ( D ) = μ ^ = 1 n ∑ i = 1 n x i , ∈ R d mean(\mathbf{D})=\hat{\boldsymbol{\mu}}=\frac{1}{n} \sum\limits_{i=1}^n\mathbf{x}_i,\in \mathbb{R}^{d} mean(D)=μ^=n1i=1∑nxi,∈Rd
-
总方差: v a r ( D ) = 1 n ∑ i = 1 n δ ( x i , μ ^ ) 2 var(\mathbf{D})=\frac{1}{n} \sum\limits_{i=1}^{n} \delta\left(\mathbf{x}_{i}, \hat{\boldsymbol{\mu}}\right)^{2} var(D)=n1i=1∑nδ(xi,μ^)2
自行验证: v a r ( D ) = 1 n ∑ i = 1 n ∣ ∣ x i − μ ^ ∣ ∣ 2 = 1 n ∑ i = 1 n ∣ ∣ x i ∣ ∣ 2 − ∣ ∣ μ ^ ∣ ∣ 2 var(\mathbf{D})=\frac{1}{n} \sum\limits_{i=1}^{n}||\mathbf{x}_{i}- \hat{\boldsymbol{\mu}}||^2=\frac{1}{n} \sum\limits_{i=1}^{n}||\mathbf{x}_{i}||^2-||\hat{\boldsymbol{\mu}}||^2 var(D)=n1i=1∑n∣∣xi−μ^∣∣2=n1i=1∑n∣∣xi∣∣2−∣∣μ^∣∣2
-
中心数据矩阵: c e n t e r ( D ) = ( x 1 T − μ ^ T ⋮ x n T − μ ^ T ) center(\mathbf{D})=\begin{pmatrix} \mathbf{x}_{1}^T - \hat{\boldsymbol{\mu}}^T\\ \vdots \\ \mathbf{x}_{n}^T - \hat{\boldsymbol{\mu}}^T \end{pmatrix} center(D)=⎝ ⎛x1T−μ^T⋮xnT−μ^T⎠ ⎞
显然 c e n t e r ( D ) center(\mathbf{D}) center(D) 的算术平均为 0 ∈ R d \mathbf{0}\in \mathbb{R}^{d} 0∈Rd
1.3.3 正交投影
Def.4. a , b ∈ R d \mathbf{a}, \mathbf{b} \in \mathbb{R}^{d} a,b∈Rd,向量 b \mathbf{b} b 沿向量 a \mathbf{a} a 方向的正交分解是指,将 b \mathbf{b} b 写成: b = p + r \mathbf{b}= \mathbf{p}+ \mathbf{r} b=p+r。其中, p \mathbf{p} p 是指 b \mathbf{b} b 在 a \mathbf{a} a 方向上的正交投影, r \mathbf{r} r 是指 a \mathbf{a} a 与 b \mathbf{b} b 之间的垂直距离。
a ≠ 0 , b ≠ 0 \mathbf{a}\ne\mathbf{0},\mathbf{b}\ne\mathbf{0} a=0,b=0
设 p = c ⋅ a , ( c ≠ 0 , c ∈ R ) \mathbf{p}=c\cdot\mathbf{a},(c \ne 0,c \in \mathbb{R}) p=c⋅a,(c=0,c∈R) 则 r = b − p = b − c a \mathbf{r}=\mathbf{b}-\mathbf{p}=\mathbf{b}-c\mathbf{a} r=b−p=b−ca
0 = p T r = ( c ⋅ a ) T ( b − c a ) = c ⋅ ( a T b − c ⋅ a T a ) 0 = \mathbf{p}^T\mathbf{r} = (c\cdot\mathbf{a})^T(\mathbf{b}-c\mathbf{a})=c\cdot(\mathbf{a}^T\mathbf{b}-c\cdot\mathbf{a}^T\mathbf{a}) 0=pTr=(c⋅a)T(b−ca)=c⋅(aTb−c⋅aTa)
c = a T b a T a , p = a T b a T a ⋅ a c= \frac{\mathbf{a}^T\mathbf{b}}{\mathbf{a}^T\mathbf{a}}, \mathbf{p}=\frac{\mathbf{a}^T\mathbf{b}}{\mathbf{a}^T\mathbf{a}}\cdot\mathbf{a} c=aTaaTb,p=aTaaTb⋅a
1.3.4 线性相关性与维数
皆与线性代数相同,自读。
1.4 概率观点
每一个数值属性 X X X 被视为一个随机变量,即 X : O → R X:\mathcal{O}\rightarrow \mathbb{R} X:O→R,
其中, O \mathcal{O} O 表示 X X X 的定义域,即所有实验可能输出的集合,即样本空间。 R \mathbb{R} R : X X X 的值域,全体实数。
☆ 注:
- 随机变量是一个函数。
- 若 O \mathcal{O} O 本身是数值的(即 O ⊆ R \mathcal{O}\subseteq \mathbb{R} O⊆R,那么 X X X 是恒等函数,即 X ( v ) = v X(v)=v X(v)=v
- 若 X X X 的函数取值范围为有限集或无限可数集,则称之为离散随机变量,反之,为连续随机变量
Def.5. 若
X
X
X 是离散的,那么
X
X
X 的概率质量函数(probability mass function, PMF)为:
∀
x
∈
R
,
f
(
x
)
=
P
(
X
=
x
)
\forall x \in \mathbb{R},f(x)=P(X=x)
∀x∈R,f(x)=P(X=x)
注:
f
(
x
)
≥
0
,
∑
x
f
(
x
)
=
1
f(x)\ge0,\sum\limits_xf(x)=1
f(x)≥0,x∑f(x)=1;
f
(
x
)
=
0
f(x)=0
f(x)=0,如果
x
∉
x\notin
x∈/ (
x
x
x 的值域)。
Def.6. 若
X
X
X 是连续的,那么
X
X
X 的概率密度函数(probability density function, PDF)为:
P
(
X
∈
[
a
,
b
]
)
=
∫
a
b
f
(
x
)
d
x
P(X\in [a,b])=\int_{a}^{b} f(x)dx
P(X∈[a,b])=∫abf(x)dx
注:
f
(
x
)
≥
0
,
∫
−
∞
+
∞
f
(
x
)
=
1
f(x)\ge0,\int_{-\infty}^{+\infty}f(x)=1
f(x)≥0,∫−∞+∞f(x)=1
Def.7. 对任意随机变量
X
X
X ,定义累积分布函数(cumulative distributution function, CDF)
F
:
R
→
[
0
,
1
]
,
∀
x
∈
R
,
F
(
x
)
=
P
(
X
≤
x
)
F:\mathbb{R}\to[0,1],\forall x\in \mathbb{R},F(x)=P(X\le x)
F:R→[0,1],∀x∈R,F(x)=P(X≤x)
若
X
X
X 是离散的,
F
(
x
)
=
∑
u
≤
x
f
(
u
)
F(x)=\sum\limits_{u\le x}f(u)
F(x)=u≤x∑f(u)
若 X X X 是连续的, F ( x ) = ∫ − ∞ x f ( u ) d u F(x)=\int_{-\infty}^xf(u)du F(x)=∫−∞xf(u)du
1.4.1 二元随机变量
X = ( X 1 X 2 ) , X : O → R 2 \mathbf{X}=\left ( \begin{matrix} X_1 \\ X_2 \end{matrix} \right ), \mathbf{X}:\mathcal{O}\to\mathbb{R}^2 X=(X1X2),X:O→R2 此处 X 1 X_1 X1, X 2 X_2 X2 分别是两个随机变量。
上课时略去了很多概念,补上。
Def.8. 若
X
1
X_1
X1 和
X
2
X_2
X2 都是离散,那么
X
\mathbf{X}
X 的联合概率质量函数被定义为:
f
(
x
)
=
f
(
x
1
,
x
2
)
=
P
(
X
1
=
x
1
,
X
2
=
x
2
)
=
P
(
X
=
x
)
f(\mathbf{x})=f(x_1,x_2)=P(X_1=x_1,X_2=x_2)=P(\mathbf{X}=\mathbf{x})
f(x)=f(x1,x2)=P(X1=x1,X2=x2)=P(X=x)
注:
f
(
x
)
≥
0
,
∑
x
1
∑
x
2
f
(
x
1
,
x
2
)
=
1
f(x)\ge0,\sum\limits_{x_1}\sum\limits_{x_2}f(x_1,x_2)=1
f(x)≥0,x1∑x2∑f(x1,x2)=1
Def.9. 若
X
1
X_1
X1 和
X
2
X_2
X2 都是连续,那么
X
\mathbf{X}
X 的联合概率密度函数被定义为:
P
(
X
∈
W
)
=
∬
x
∈
W
f
(
x
)
d
x
=
∬
(
x
1
,
x
2
)
∈
T
W
f
(
x
1
,
x
2
)
d
x
1
d
x
2
P(\mathbf{X} \in W)=\iint\limits_{\mathbf{x} \in W} f(\mathbf{x}) d \mathbf{x}=\iint\limits_{\left(x_{1}, x_{2}\right)^T_{\in} W} f\left(x_{1}, x_{2}\right) d x_{1} d x_{2}
P(X∈W)=x∈W∬f(x)dx=(x1,x2)∈TW∬f(x1,x2)dx1dx2
其中,
W
⊂
R
2
W \subset \mathbb{R}^2
W⊂R2,
f
(
x
)
≥
0
,
∬
x
∈
R
2
f
(
x
)
d
x
=
1
f(\mathbf{x})\ge0,\iint\limits_{\mathbf{x}\in\mathbb{R}^2}f(\mathbf{x})d\mathbf{x}=1
f(x)≥0,x∈R2∬f(x)dx=1
Def.10.
X
\mathbf{X}
X 的联合累积分布函数
F
F
F
F
(
x
1
,
x
2
)
=
P
(
X
1
≤
x
1
and
X
2
≤
x
2
)
=
P
(
X
≤
x
)
F(x_1,x_2)=P(X_1\le x_1 \text{ and } X_2\le x_2)=P(\mathbf{X}\le\mathbf{x})
F(x1,x2)=P(X1≤x1 and X2≤x2)=P(X≤x)
Def.11.
X
1
X_1
X1 和
X
2
X_2
X2 是独立的,如果
∀
W
1
⊂
R
\forall W_1\subset \mathbb{R}
∀W1⊂R 及
∀
W
2
⊂
R
\forall W_2\subset \mathbb{R}
∀W2⊂R
P
(
X
1
∈
W
1
and
X
2
∈
W
2
)
=
P
(
X
1
∈
W
1
)
⋅
(
X
2
∈
W
2
)
P(X_1\in W_1 \text{ and } X_2\in W_2)=P(X_1\in W_1)\cdot(X_2\in W_2)
P(X1∈W1 and X2∈W2)=P(X1∈W1)⋅(X2∈W2)
Prop. 如果
X
1
X_1
X1 和
X
2
X_2
X2 是独立的,那么
F
(
x
1
,
x
2
)
=
F
1
(
x
1
)
⋅
F
2
(
x
2
)
f
(
x
1
,
x
2
)
=
f
1
(
x
1
)
⋅
f
2
(
x
2
)
F(x_1,x_2)=F_1(x_1)\cdot F_2(x_2)\\ f(x_1,x_2)=f_1(x_1)\cdot f_2(x_2)
F(x1,x2)=F1(x1)⋅F2(x2)f(x1,x2)=f1(x1)⋅f2(x2)
其中
F
i
F_i
Fi 是
X
i
X_i
Xi 的累积分布函数,
f
i
f_i
fi 是
x
i
x_i
xi 的 PMF 或 PDF。
1.4.2 多元随机变量
平行推广1.4.1节中的各定义即可。
1.4.3 随机样本与统计量
Def.12. 给定随机变量 X X X ,来源于 X X X 的长度为 n n n 的随机样本是指 n n n 个独立的且同分布(均与 X X X 具有同样的 PMF 或 PDF)的随机变量 S 1 , S 2 , ⋯ , S n S_1,S_2,\cdots,S_n S1,S2,⋯,Sn。
Def.13. 统计量 θ ^ \hat{\theta} θ^ 被定义为关于随机样本的函数 θ ^ : ( S 1 , S 2 , ⋯ , S n ) → R \hat{\theta}:(S_1,S_2,\cdots,S_n)\to \mathbb{R} θ^:(S1,S2,⋯,Sn)→R
注: θ ^ \hat{\theta} θ^ 本身也是随机变量