数据挖掘与分析课程笔记（Chapter 2）

yyywxk

已于 2022-11-03 15:57:42 修改

阅读量232

点赞数

分类专栏：数学文章标签：数据挖掘人工智能

于 2022-11-03 15:38:39 首次发布

本文链接：https://blog.csdn.net/yyywxk/article/details/127671669

版权

数学专栏收录该内容

19 篇文章 1 订阅

订阅专栏

数据挖掘与分析课程笔记

参考教材：Data Mining and Analysis : MOHAMMED J.ZAKI, WAGNER MEIRA JR.

文章目录

笔记目录

数据挖掘与分析课程笔记
文章目录
Chapter 2：数值属性

Chapter 2：数值属性

关注代数、几何与统计观点。

2.1 一元分析

仅关注一项属性， $\mathbf{D}=\left(\begin{array}{c} X \\ \hline x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right),x_i\in\mathbb{R}$

统计： $X$ 可视为（高维）随机变量， $x_i$ 均是恒等随机变量， $x_1,\cdots,x_n$ 也看作源于 $X$ 的长度为 $n$ 的随机样本。

Def.1. 经验积累分布函数

Def.2. 反积累分布函数

Def.3. 随机变量 $X$ 的经验概率质量函数是指
$\hat{f}(x)=\frac{1}{n} \sum_{i=1}^{n} I\left(x_{i} = x\right),\forall x_i \in \mathbb{R}\\ I\left(x_{i} = x\right)=\left\{\begin{matrix} 1,x_i=x\\ 0,x_i\ne x \end{matrix}\right.$

2.1.1 集中趋势量数

Def.4. 离散随机变量 $X$ 的期望是指： $\mu:=E(X) = \sum\limits_{x} xf(x)$ ， $f (x)$ 是 $X$ 的PMF

连续随机变量 $X$ 的期望是指： $\mu:=E(X) = \int\limits_{-\infin}^{+\infin} xf(x)dx$ ， $f (x)$ 是 $X$ 的PDF

注： $E (a X + bY) = a E (X) + b E (Y)$

Def.5. $X$ 的样本平均值是指 $\hat{\mu}=\frac{1}{n} \sum\limits_{i=1}^{n}x_i$ ，注 $\hat{\mu}$ 是 $\mu$ 的估计量

Def.6. 一个估计量（统计量） $\hat{\theta}$ 被称作统计量 $\theta$ 的无偏估计，如果 $E(\hat{\theta})=\theta$

自证：样本平均值 $\hat{\mu}$ 是期望 $\mu$ 的无偏估计量， $E(x_i)=\mu \text{ for all } x_i$

Def.7. 一个估计量是稳健的，如果它不会被样本中的极值影响。（样本平均值并不是稳健的。）

Def.8. 随机变量 $X$ 的中位数

Def.9. 随机变量 $X$ 的样本中位数

Def.10. 随机变量 $X$ 的众数，随机变量 $X$ 的样本众数

2.2.2 离差量数

Def.11. 随机变量 $X$ 的极差与样本极差

Def.12. 随机变量 $X$ 的四分位距，样本的四分位距

Def.13. 随机变量 $X$ 的方差是
$\sigma^{2}=\operatorname{var}(X)=E\left[(X-\mu)^{2}\right]=\left\{\begin{array}{ll} \sum_{x}(x-\mu)^{2} f(x) & \text { if } X \text { is discrete } \\ \\ \int_{-\infty}^{\infty}(x-\mu)^{2} f(x) d x & \text { if } X \text { is continuous } \end{array}\right.$

标准差 $\sigma$ 是指 $\sigma^2$ 的正的平方根。

注：方差是关于期望的第二阶动差， $r$ 阶动差是指 $E[(x-\mu)^r]$ 。

性质：

$\sigma^2=E(X^2)-\mu^2=E(X^2)-[E(X)]^2$
$var(X_1+X_2)=var(X_1)+var(X_2)$ ， $X_1,X_2$ 独立

Def.14. 样本方差是 $\hat{\sigma}^{2}=\frac{1}{n} \sum\limits_{i=1}^{n}\left(x_{i}-\hat{\mu}\right)^{2}$ ，底下非 $n - 1$

样本方差的几何意义：考虑中心化数据矩阵
$C:=\left(\begin{array}{c} x_{1}-\hat{\mu} \\ x_{2}-\hat{\mu} \\ \vdots \\ x_{n}-\hat{\mu} \end{array}\right)\\ n\cdot \hat{\sigma}^2=\sum\limits_{i=1}^{n}\left(x_{i}-\hat{\mu}\right)^{2}=||C||^2$
问题： $X$ 的样本平均数的期望与方差？
$E(\hat{\mu})=E(\frac{1}{n} \sum\limits_{i=1}^{n}x_i)=\frac{1}{n} \sum\limits_{i=1}^{n} E(x_i)=\frac{1}{n}\sum\limits_{i=1}^{n}\mu=\mu\\$
方差有两种方法：第一种直接展开，第二种：运用 $x_1,\cdots,x_n$ 独立同分布：
$var(\sum\limits_{i=1}^{n}x_i))=\sum\limits_{i=1}^{n}var(x_i)=n\cdot \sigma^2\Longrightarrow var(\hat{\mu})=\frac{\sigma^2}{n}$
注：样本方差是有偏估计，因为： $E(\sigma^2)=(\frac{n-1}{n})\sigma^2\xrightarrow{n\to +\infin}\sigma^2$

2.2 二元分析

略

2.3 多元分析

$\mathbf{D}=\left(\begin{array}{c|cccc} & X_{1} & X_{2} & \cdots & X_{d} \\ \hline \mathbf{x}_{1} & x_{11} & x_{12} & \cdots & x_{1 d} \\ \mathbf{x}_{2} & x_{21} & x_{22} & \cdots & x_{2 d} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \mathbf{x}_{n} & x_{n 1} & x_{n 2} & \cdots & x_{n d} \end{array}\right)$

可视为： $\mathbf{X}=(X_1,\cdots,X_d)^T$

Def.15. 对于随机变量向量 $\mathbf{X}$ ，其期望向量为： $E[\mathbf{X}]=\left(\begin{array}{c} E\left[X_{1}\right] \\ E\left[X_{2}\right] \\ \vdots \\ E\left[X_{d}\right] \end{array}\right)$

样本平均值为： $\hat{\boldsymbol{\mu}}=\frac{1}{n} \sum\limits_{i=1}^{n} \mathbf{x}_{i},(=mean(\mathbf{D})) \in \mathbb{R}^{d}$

Def.16. 对于 $X_1,X_2$ ，定义协方差 $\sigma_{12}=E[(X_1-E(X_1))(X_2-E(X_2)]=E(X_1X_2)-E(X_1)E(X_2)$

Remark:

$\sigma_{12}=\sigma_{21}$
若两者独立，则 $\sigma_{12}=0$

Def.17. 对于随机变量向量 $\mathbf{X}=(X_1,\cdots,X_d)^T$ ，定义协方差矩阵：
$\boldsymbol{\Sigma}=E\left[(\mathbf{X}-\boldsymbol{\mu})(\mathbf{X}-\boldsymbol{\mu})^{T}\right]=\left(\begin{array}{cccc} \sigma_{1}^{2} & \sigma_{12} & \cdots & \sigma_{1 d} \\ \sigma_{21} & \sigma_{2}^{2} & \cdots & \sigma_{2 d} \\ \cdots & \cdots & \cdots & \cdots \\ \sigma_{d 1} & \sigma_{d 2} & \cdots & \sigma_{d}^{2} \end{array}\right)_{d\times d}$
其为对称矩阵，定义 $\mathbf{X}$ 的广义方差为 $det(\boldsymbol{\Sigma})$

注：

$\boldsymbol{\Sigma}$ 是实对称矩阵且半正定，即所有特征值非负， $\lambda_1\ge \lambda_2 \cdots \ge\lambda_d \ge 0$
$var(\mathbf{D})=tr(\Sigma)=\sigma_1^2+\cdots+\sigma_d^2$

Def.18. 对于 $\mathbf{X}=(X_1,\cdots,X_d)^T$ ，定义样本协方差矩阵
$\hat{\boldsymbol{\Sigma}}=\frac{1}{n}\left(\mathbf{Z}^{T} \mathbf{Z}\right)=\frac{1}{n}\left(\begin{array}{cccc} Z_{1}^{T} Z_{1} & Z_{1}^{T} Z_{2} & \cdots & Z_{1}^{T} Z_{d} \\ Z_{2}^{T} Z_{1} & Z_{2}^{T} Z_{2} & \cdots & Z_{2}^{T} Z_{d} \\ \vdots & \vdots & \ddots & \vdots \\ Z_{d}^{T} Z_{1} & Z_{d}^{T} Z_{2} & \cdots & Z_{d}^{T} Z_{d} \end{array}\right)_{d\times d}$
其中
$\mathbf{Z}=\mathbf{D}-\mathbf{1} \cdot \hat{\boldsymbol{\mu}}^{T}=\left(\begin{array}{c} \mathbf{x}_{1}^{T}-\hat{\boldsymbol{\mu}}^{T} \\ \mathbf{x}_{2}^{T}-\hat{\boldsymbol{\mu}}^{T} \\ \vdots \\ \mathbf{x}_{n}^{T}-\hat{\boldsymbol{\mu}}^{T} \end{array}\right)=\left(\begin{array}{ccc} -& \mathbf{z}_{1}^{T} & - \\ -& \mathbf{z}_{2}^{T} & - \\ & \vdots \\ -& \mathbf{z}_{n}^{T} & - \end{array}\right)=\left(\begin{array}{cccc} \mid & \mid & & \mid \\ Z_{1} & Z_{2} & \cdots & Z_{d} \\ \mid & \mid & & \mid \end{array}\right)$

样本总方差是 $tr(\hat{\boldsymbol{\Sigma}})$ ，广义样本方差是 $det(\hat{\boldsymbol{\Sigma}})\ge0$

$\hat{\boldsymbol{\Sigma}}=\frac{1}{n}\sum\limits_{i=1}^n\mathbf{z}_{i}\mathbf{z}_{i}^T$

yyywxk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘与分析课程笔记（Chapter 2）

关注代数、几何与统计观点。仅关注一项属性，D=(Xx1x2⋮xn),xi∈R\mathbf{D}=\left(\begin{array}{c}X \\\hline x_{1} \\x_{2} \\\vdots \\x_{n}\end{array}\right),x_i\in\mathbb{R}D=⎝⎛Xx1x2⋮xn⎠⎞,xi∈R统计： XXX 可视为（高维）随机变量，xix_ixi 均是恒等随机变量，x1,⋯ ,xnx_1,\cdots,x_nx1,⋯,xn 也看作源于
复制链接

扫一扫

专栏目录