数据挖掘与分析课程笔记（Chapter 1）

yyywxk

已于 2022-11-03 15:56:22 修改

阅读量217

点赞数

分类专栏：数学文章标签：数据挖掘人工智能

于 2022-11-03 15:33:23 首次发布

本文链接：https://blog.csdn.net/yyywxk/article/details/127671494

版权

数学专栏收录该内容

19 篇文章 1 订阅

订阅专栏

数据挖掘与分析课程笔记

参考教材：Data Mining and Analysis : MOHAMMED J.ZAKI, WAGNER MEIRA JR.

文章目录

笔记目录

数据挖掘与分析课程笔记
文章目录
Chapter 1 ：准备

Chapter 1 ：准备

1.1 数据矩阵

Def.1. 数据矩阵是指一个 $(n\times d)$ 的矩阵
$\mathbf{D}=\left(\begin{array}{c|cccc} & X_{1} & X_{2} & \cdots & X_{d} \\ \hline \mathbf{x}_{1} & x_{11} & x_{12} & \cdots & x_{1 d} \\ \mathbf{x}_{2} & x_{21} & x_{22} & \cdots & x_{2 d} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \mathbf{x}_{n} & x_{n 1} & x_{n 2} & \cdots & x_{n d} \end{array}\right)$
行：实体，列：属性

Ex. 鸢尾花数据矩阵
$\left(\begin{array}{c|ccccc} & 萼片长 & 萼片宽 & 花瓣长 & 花瓣宽 & 类别 \\ & X_{1} & X_{2} & X_{3} & X_{4} & X_{5} \\ \hline \mathbf{x}_{1} & 5.9 & 3.0 & 4.2 & 1.5 & 云芝 \\ \end{array}\right)$

1.2 属性

Def.2.

数值属性是指取实数值（或整数值）的属性。
若数值属性的取值范围是有限集或无限可数集，则称之为离散数值属性。若只有两种取值，则称为二元属性。
若数值属性的取值范围不是离散的则称为连续数值属性。

Def.3. 类别属性是指取值为符号的属性。

1.3 代数与几何的角度

假设 $\mathbf{D}$ 中所有属性均为数值的，即
$\mathbf{x}_{i}=\left(x_{i 1}, x_{i 2}, \ldots, x_{i d}\right)^{T} \in \mathbb{R}^{d},i=1,\cdots,n$
或
$\mathbf{x}_{j}=\left(x_{1 j}, x_{2j}, \ldots, x_{n j}\right)^{T} \in \mathbb{R}^{n},j=1,\cdots,d$
☆ 默认向量为列向量。

1.3.1 距离与角度

设 $\mathbf{a}, \mathbf{b} \in \mathbb{R}^{d}$ ，

点乘： $\mathbf{a}^{T}\mathbf{b}=\sum\limits_{i=1}^{d} a_ib_i$
长度（欧氏范数）： $\left | \mathbf{a} \right | =\sqrt{\mathbf{a}^{T}\mathbf{a} } =\sqrt{\sum\limits_{i=1}^{d} a_i^2}$ ，单位化： $\frac{\mathbf{a}}{|\mathbf{a}|}$
距离： $\delta(\mathbf{a},\mathbf{b})=||\mathbf{a}-\mathbf{b}||=\sqrt{\sum\limits_{i=1}^{d}(a_i-b_i)^2}$
角度： $\theta =(\frac{\mathbf{a}}{|\mathbf{a}|})^{T}(\frac{\mathbf{b}}{|\mathbf{b}|})$ ，即单位化后作点乘
正交： $\mathbf{a}$ 与 $\mathbf{b}$ 正交，若 $\mathbf{a}^{T}\mathbf{b}=0$

1.3.2 算术平均与总方差

Def.3.

算术平均： $mean(\mathbf{D})=\hat{\boldsymbol{\mu}}=\frac{1}{n} \sum\limits_{i=1}^n\mathbf{x}_i,\in \mathbb{R}^{d}$
总方差： $var(\mathbf{D})=\frac{1}{n} \sum\limits_{i=1}^{n} \delta\left(\mathbf{x}_{i}, \hat{\boldsymbol{\mu}}\right)^{2}$

自行验证： $var(\mathbf{D})=\frac{1}{n} \sum\limits_{i=1}^{n}||\mathbf{x}_{i}- \hat{\boldsymbol{\mu}}||^2=\frac{1}{n} \sum\limits_{i=1}^{n}||\mathbf{x}_{i}||^2-||\hat{\boldsymbol{\mu}}||^2$
中心数据矩阵： $center(\mathbf{D})=\begin{pmatrix} \mathbf{x}_{1}^T - \hat{\boldsymbol{\mu}}^T\\ \vdots \\ \mathbf{x}_{n}^T - \hat{\boldsymbol{\mu}}^T \end{pmatrix}$

显然 $center(\mathbf{D})$ 的算术平均为 $\mathbf{0}\in \mathbb{R}^{d}$

1.3.3 正交投影

Def.4. $\mathbf{a}, \mathbf{b} \in \mathbb{R}^{d}$ ，向量 $\mathbf{b}$ 沿向量 $\mathbf{a}$ 方向的正交分解是指，将 $\mathbf{b}$ 写成： $\mathbf{b}= \mathbf{p}+ \mathbf{r}$ 。其中， $\mathbf{p}$ 是指 $\mathbf{b}$ 在 $\mathbf{a}$ 方向上的正交投影， $\mathbf{r}$ 是指 $\mathbf{a}$ 与 $\mathbf{b}$ 之间的垂直距离。

在这里插入图片描述

$\mathbf{a}\ne\mathbf{0},\mathbf{b}\ne\mathbf{0}$

设 $\mathbf{p}=c\cdot\mathbf{a},(c \ne 0,c \in \mathbb{R})$ 则 $\mathbf{r}=\mathbf{b}-\mathbf{p}=\mathbf{b}-c\mathbf{a}$

$\mathbf{p}^T\mathbf{r} = (c\cdot\mathbf{a})^T(\mathbf{b}-c\mathbf{a})=c\cdot(\mathbf{a}^T\mathbf{b}-c\cdot\mathbf{a}^T\mathbf{a})$

$\frac{\mathbf{a}^T\mathbf{b}}{\mathbf{a}^T\mathbf{a}}, \mathbf{p}=\frac{\mathbf{a}^T\mathbf{b}}{\mathbf{a}^T\mathbf{a}}\cdot\mathbf{a}$

1.3.4 线性相关性与维数

皆与线性代数相同，自读。

1.4 概率观点

每一个数值属性 $X$ 被视为一个随机变量，即 $X:\mathcal{O}\rightarrow \mathbb{R}$ ，

其中， $\mathcal{O}$ 表示 $X$ 的定义域，即所有实验可能输出的集合，即样本空间。 $\mathbb{R}$ ： $X$ 的值域，全体实数。

☆ 注：

随机变量是一个函数。
若 $\mathcal{O}$ 本身是数值的（即 $\mathcal{O}\subseteq \mathbb{R}$ ，那么 $X$ 是恒等函数，即 $X (v) = v$
若 $X$ 的函数取值范围为有限集或无限可数集，则称之为离散随机变量，反之，为连续随机变量

Def.5. 若 $X$ 是离散的，那么 $X$ 的概率质量函数（probability mass function, PMF）为：
$\forall x \in \mathbb{R},f(x)=P(X=x)$
注： $f(x)\ge0,\sum\limits_xf(x)=1$ ； $f (x) = 0$ ，如果 $x\notin$ ( $x$ 的值域)。

Def.6. 若 $X$ 是连续的，那么 $X$ 的概率密度函数（probability density function, PDF）为：
$P(X\in [a,b])=\int_{a}^{b} f(x)dx$
注： $f(x)\ge0,\int_{-\infty}^{+\infty}f(x)=1$

Def.7. 对任意随机变量 $X$ ，定义累积分布函数（cumulative distributution function, CDF）
$F:\mathbb{R}\to[0,1],\forall x\in \mathbb{R},F(x)=P(X\le x)$
若 $X$ 是离散的， $F(x)=\sum\limits_{u\le x}f(u)$

若 $X$ 是连续的， $F(x)=\int_{-\infty}^xf(u)du$

1.4.1 二元随机变量

$\mathbf{X}=\left ( \begin{matrix} X_1 \\ X_2 \end{matrix} \right ), \mathbf{X}:\mathcal{O}\to\mathbb{R}^2$ 此处 $X_1$ ， $X_2$ 分别是两个随机变量。

上课时略去了很多概念，补上。

Def.8. 若 $X_1$ 和 $X_2$ 都是离散，那么 $\mathbf{X}$ 的联合概率质量函数被定义为：
$f(\mathbf{x})=f(x_1,x_2)=P(X_1=x_1,X_2=x_2)=P(\mathbf{X}=\mathbf{x})$
注： $f(x)\ge0,\sum\limits_{x_1}\sum\limits_{x_2}f(x_1,x_2)=1$

Def.9. 若 $X_1$ 和 $X_2$ 都是连续，那么 $\mathbf{X}$ 的联合概率密度函数被定义为：
$P(\mathbf{X} \in W)=\iint\limits_{\mathbf{x} \in W} f(\mathbf{x}) d \mathbf{x}=\iint\limits_{\left(x_{1}, x_{2}\right)^T_{\in} W} f\left(x_{1}, x_{2}\right) d x_{1} d x_{2}$
其中， $\subset \mathbb{R}^2$ ， $f(\mathbf{x})\ge0,\iint\limits_{\mathbf{x}\in\mathbb{R}^2}f(\mathbf{x})d\mathbf{x}=1$

Def.10. $\mathbf{X}$ 的联合累积分布函数 $F$
$F(x_1,x_2)=P(X_1\le x_1 \text{ and } X_2\le x_2)=P(\mathbf{X}\le\mathbf{x})$
Def.11. $X_1$ 和 $X_2$ 是独立的，如果 $\forall W_1\subset \mathbb{R}$ 及 $\forall W_2\subset \mathbb{R}$
$P(X_1\in W_1 \text{ and } X_2\in W_2)=P(X_1\in W_1)\cdot(X_2\in W_2)$
Prop. 如果 $X_1$ 和 $X_2$ 是独立的，那么
$F(x_1,x_2)=F_1(x_1)\cdot F_2(x_2)\\ f(x_1,x_2)=f_1(x_1)\cdot f_2(x_2)$
其中 $F_i$ 是 $X_i$ 的累积分布函数， $f_i$ 是 $x_i$ 的 PMF 或 PDF。

1.4.2 多元随机变量

平行推广1.4.1节中的各定义即可。

1.4.3 随机样本与统计量

Def.12. 给定随机变量 $X$ ，来源于 $X$ 的长度为 $n$ 的随机样本是指 $n$ 个独立的且同分布（均与 $X$ 具有同样的 PMF 或 PDF）的随机变量 $S_1,S_2,\cdots,S_n$ 。

Def.13. 统计量 $\hat{\theta}$ 被定义为关于随机样本的函数 $\hat{\theta}:(S_1,S_2,\cdots,S_n)\to \mathbb{R}$

注： $\hat{\theta}$ 本身也是随机变量

yyywxk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘与分析课程笔记（Chapter 1）

Def.1. 数据矩阵是指一个 (n×d)(n\times d)(n×d) 的矩阵D=(X1X2⋯Xdx1x11x12⋯x1dx2x21x22⋯x2d⋮⋮⋮⋱⋮xnxn1xn2⋯xnd)\mathbf{D}=\left(\begin{array}{c|cccc} & X_{1} & X_{2} & \cdots & X_{d} \\\hline \mathbf{x}_{1} & x_{11} & x_{12} & \cdots & x_{1 d} \\\mathbf{x}_{2} & x_{21}
复制链接

扫一扫

专栏目录