数据挖掘与分析课程笔记（Chapter 15）

yyywxk

已于 2022-11-03 15:59:54 修改

阅读量192

点赞数

分类专栏：数学文章标签：数据挖掘 python

于 2022-11-03 15:45:09 首次发布

本文链接：https://blog.csdn.net/yyywxk/article/details/127671855

版权

数学专栏收录该内容

19 篇文章 1 订阅

订阅专栏

数据挖掘与分析课程笔记

参考教材：Data Mining and Analysis : MOHAMMED J.ZAKI, WAGNER MEIRA JR.

文章目录

笔记目录

数据挖掘与分析课程笔记
文章目录
Chapter 15：基于密度的聚类

Chapter 15：基于密度的聚类

适用数据类型：非凸，又称非凸聚类；K-means 适用于凸数据

15.1 DBSCAN 算法

定义记号： $\forall \mathbf{x}\in \mathbb{R}^d,N_{\epsilon}(\mathbf{x}):=\{\mathbf{y}\in \mathbb{R}^d|\delta(\mathbf{x}-\mathbf{y})\le\epsilon \}$ ，其中 $\delta(\mathbf{x}-\mathbf{y})=||\mathbf{x}-\mathbf{y}||$ 欧式距离，其他距离也可。 $\mathbf{D}\subseteq \mathbb{R}^d$

Def.1 设 $\in \mathbb{N}_+$ 是用户定义的局部密度，如果 $|N_{\epsilon}(\mathbf{x})\cap\mathbf{D}|\ge minpts$ ，则称 $\mathbf{x}$ 是 $\mathbf{D}$ 核心点；如果 $|N_{\epsilon}(\mathbf{x})\cap\mathbf{D}|< minpts$ ，且 $\mathbf{x}\in N_{\epsilon}(\mathbf{z})$ ，其中 $\mathbf{z}$ 是 $\mathbf{D}$ 的核心点，则称 $\mathbf{x}$ 是 $\mathbf{D}$ 的边缘点；如果 $\mathbf{x}$ 既不是核心点又不是边缘点，则称 $\mathbf{x}$ 是 $\mathbf{D}$ 的噪点。

Def.2 如果 $\mathbf{x}\in N_{\epsilon}(\mathbf{y})$ 且 $\mathbf{y}$ 是核心点，则称 $\mathbf{x}$ 到 $\mathbf{y}$ 是直接密度可达的。如果存在点列 $\mathbf{x}_0,\mathbf{x}_1,\cdots,\mathbf{x}_l$ ，使得 $\mathbf{x}_0=\mathbf{x},\mathbf{x}_l=\mathbf{y}$ ，且 $\mathbf{x}_{i}$ 到 $\mathbf{x}_{i-1}$ 是直接密度可达，则称 $\mathbf{x}$ 到 $\mathbf{y}$ 是密度可达。

Def.3 如果存在 $\mathbf{z}\in \mathbf{D}$ ，使得 $\mathbf{x}$ 和 $\mathbf{y}$ 到 $\mathbf{z}$ 都是密度可达的，称 $\mathbf{x}$ 和 $\mathbf{y}$ 是密度连通的。

Def.4 基于密度的聚类是指基数最大的密度连通集（即集合内任意两点都是密度连通）。

算法15.1 ： DBSCAN ( $O(n^2)$ )

输入： $\mathbf{D}, \epsilon, minpts$

输出： $\mathcal{C},Core,Border,Noise$

$\leftarrow \emptyset$
对每一个 $\mathbf{x}_i\in \mathbf{D}$

2.1 计算 $N_\epsilon(\mathbf{x}_i)(\subseteq \mathbf{D})$

2.2 $id(\mathbf{x}_i)\leftarrow \emptyset$

2.3 如果 $N_\epsilon(\mathbf{x}_i)\ge minpts$ ，则 $Core\leftarrow Core \cup \{ \mathbf{x}_i\}$
$k\leftarrow 0$
对每一个 $\mathbf{x}_i\in Core, s.t.id(\mathbf{x}_i)= \emptyset$ ，执行

4.1 $k\leftarrow k+1$

4.2 $id(\mathbf{x}_i)\leftarrow k$

4.3 $(\mathbf{x}_i,k)$
$\mathcal{C}\leftarrow \{ C_i\}_{i=1}^k$ ，其中 $C_i\leftarrow \{\mathbf{x}_i \in \mathbf{D} |id(\mathbf{x}_i)=i\}$
$\leftarrow \{\mathbf{x}_i \in \mathbf{D} |id(\mathbf{x}_i)=\emptyset\}$
$Border\leftarrow \mathbf{D}\setminus \{Core\cup Noise \}$
return $\mathcal{C},Core,Border,Noise$

$(\mathbf{x}_i,k)$ ：

对于每一个 $\mathbf{y} \in N_\epsilon(\mathbf{x}) \setminus {\mathbf{x}}$

1.1 $id(\mathbf{y})\leftarrow k$

1.2 如果 $\mathbf{y}\in Core$ ，则 $(\mathbf{y},k)$

Remark：DBSCAN 对 $\varepsilon$ 敏感： $\varepsilon$ 过小，稀疏的类可能被认作噪点； $\varepsilon$ 过大，稠密的类可能无法区分。

15.2 密度估计函数（DEF）

$\forall \mathbf{z}\in \mathbb{R}^d$ ，定义 $K(\mathbf{z})=\frac{1}{(2\pi)^{d/2}}e^{-\frac{\mathbf{z}^T\mathbf{z}}{2}}$ ， $\forall \mathbf{x}\in \mathbb{R}^d,\hat{f}(\mathbf{x}):=\frac{1}{nh^d}\sum\limits_{i=1}^{n}K(\frac{\mathbf{x}-\mathbf{x}_i}{h})$

其中 $h > 0$ 是用户指定的步长， $\{\mathbf{x}_1,\cdots,\mathbf{x}_n\}$ 是给定的数据集

15.3 DENCLUE

Def.1 称 $\mathbf{x}^*\in \mathbb{R}^d$ 是密度吸引子，如果它决定概率密度函数 $f$ 的一个局部最大值。（PDF一般未知）

称 $\mathbf{x}^*\in \mathbb{R}^d$ 是 $\mathbf{x}\in \mathbb{R}^d$ 的密度吸引子，如果存在 $\mathbf{x}_0,\mathbf{x}_1,\dots,\mathbf{x}_m$ ，使得 $\mathbf{x}_0=\mathbf{x},||\mathbf{x}_m-\mathbf{x}^*||\le\epsilon$ ，且 $\mathbf{x}_{t+1}=\mathbf{x}_{t}+\delta \cdot \nabla \hat{f}(\mathbf{x}_{t})\quad (1)$

其中 $\epsilon,\delta >0$ 是用户定义的误差及步长， $\hat{f}$ 是DEF。

更高效的迭代公式：

动机：当 $\mathbf{x}$ 靠近 $\mathbf{x}^*$ 时，迭代公式（1）迭代效率低 $\nabla \hat{f}(\mathbf{x}^*)=0$

而 $\nabla \hat{f}(\mathbf{x})=\frac{\partial}{\partial \mathbf{x}} \hat{f}(\mathbf{x})=\frac{1}{n h^{d}} \sum\limits_{i=1}^{n} \frac{\partial}{\partial \mathbf{x}} K\left(\frac{\mathbf{x}-\mathbf{x}_{i}}{h}\right)$

$\begin{aligned} \frac{\partial}{\partial \mathbf{x}} K(\mathbf{z}) &=\left(\frac{1}{(2 \pi)^{d / 2}} \exp \left\{-\frac{\mathbf{z}^{T} \mathbf{z}}{2}\right\}\right) \cdot-\mathbf{z} \cdot \frac{\partial \mathbf{z}}{\partial \mathbf{x}} \\ &=K(\mathbf{z}) \cdot-\mathbf{z} \cdot \frac{\partial \mathbf{z}}{\partial \mathbf{x}} \end{aligned}$

将 $\mathbf{z}=\frac{\mathbf{x}-\mathbf{x}_i}{h}$ 代入得： $\frac{\partial}{\partial \mathbf{x}} K\left(\frac{\mathbf{x}-\mathbf{x}_{i}}{h}\right)=K\left(\frac{\mathbf{x}-\mathbf{x}_{i}}{h}\right) \cdot\left(\frac{\mathbf{x}_{i}-\mathbf{x}}{h}\right) \cdot\left(\frac{1}{h}\right)$

故有： $\nabla \hat{f}(\mathbf{x})=\frac{1}{n h^{d+2}} \sum\limits_{i=1}^{n} K\left(\frac{\mathbf{x}-\mathbf{x}_{i}}{h}\right) \cdot\left(\mathbf{x}_{i}-\mathbf{x}\right)$

则： $\frac{1}{n h^{d+2}} \sum\limits_{i=1}^{n} K\left(\frac{\mathbf{x}^*-\mathbf{x}_{i}}{h}\right) \cdot\left(\mathbf{x}_{i}-\mathbf{x}^*\right)=0$

故有： $\mathbf{x}^*=\frac{\sum\limits_{i=1}^{n} K\left(\frac{\mathbf{x}^*-\mathbf{x}_{i}}{h}\right)\cdot \mathbf{x}_{i}}{\sum\limits_{i=1}^{n} K\left(\frac{\mathbf{x}^*-\mathbf{x}_{i}}{h}\right)}\quad (2)$

由（1）： $\mathbf{x}_{t+1}-\mathbf{x}_{t}=\delta \cdot \nabla \hat{f}(\mathbf{x}_{t})$ ，（靠近 $\mathbf{x}^*$ 时）近似有： $\mathbf{x}_{t+1}-\mathbf{x}_{t}\approx0$

且： $\mathbf{x}_t=\frac{\sum\limits_{i=1}^{n} K\left(\frac{\mathbf{x}_t-\mathbf{x}_{i}}{h}\right)\cdot \mathbf{x}_{i}}{\sum\limits_{i=1}^{n} K\left(\frac{\mathbf{x}_t-\mathbf{x}_{i}}{h}\right)}$

故： $\mathbf{x}_{t+1}=\frac{\sum\limits_{i=1}^{n} K\left(\frac{\mathbf{x}_t-\mathbf{x}_{i}}{h}\right)\cdot \mathbf{x}_{i}}{\sum\limits_{i=1}^{n} K\left(\frac{\mathbf{x}_t-\mathbf{x}_{i}}{h}\right)}$

Def.2 称 $C\subseteq \mathbf{D}$ 是基于密度的类，如果存在密度吸引子 $\mathbf{x}^*_1,\dots,\mathbf{x}^*_m$ $s . t :$

$\forall \mathbf{x}\in C$ 都有某个 $\mathbf{x}^*_i$ 使得， $\mathbf{x}^*_i$ 是 $\mathbf{x}$ 的密度吸引子；
$\forall i,\hat{f}(\mathbf{x}^*_i)\ge \xi$ ，其中 $\xi$ 是用户指定的极小密度阈值；
$\forall\mathbf{x}^*_i,\mathbf{x}^*_j$ 都密度可达，即存在路径从 $\mathbf{x}^*_i$ 到 $\mathbf{x}^*_j$ 使得路径上所有点 $\mathbf{y}$ 都有 $\hat{f}(\mathbf{y})\ge\xi$ 。

算法15.2 ： DENCLUE 算法

输入： $\mathbf{D},h,\xi,\epsilon$

输出： $\mathcal{C}$ （基于密度的聚类）

$\mathcal{A}\leftarrow\emptyset$
对每一个 $\mathbf{x}\in \mathbf{D}$ :

2.1 $\mathbf{x}^* \leftarrow FINDATTRACTOR(\mathbf{x},\mathbf{D},h,\xi,\epsilon)$

2.2 $R(\mathbf{x}^*)\leftarrow\emptyset$

2.3 if $\hat{f}(\mathbf{x}^*)\ge \xi$ then:

2.4 $\mathcal{A}\leftarrow \mathcal{A}\cup\{ \mathbf{x}^*\}$

2.5 $R(\mathbf{x}^*)\leftarrow R(\mathbf{x}^*)\cup\{ \mathbf{x}^* \}$
$\mathcal{C}\leftarrow\{\text{maximal}\ C \subseteq \mathcal{A}| \forall\mathbf{x}^*_i,\mathbf{x}^*_j \in C, 满足 Def \ 2 条件3 \}$
$\forall C \in \mathcal{C}:$

4.1 对每一个 $\mathbf{x}^*\in C$ ，令 $C\leftarrow C\cup R(\mathbf{x}^*)$
Return $\mathcal{C}$

$FINDATTRACTOR(\mathbf{x},\mathbf{D},h,\xi,\epsilon)$ :

$t\leftarrow 0$
$\mathbf{x}_{t}=\mathbf{x}$
Repeat:

$\mathbf{x}_{t+1}\leftarrow\frac{\sum\limits_{i=1}^{n} K\left(\frac{\mathbf{x}_t-\mathbf{x}_{i}}{h}\right)\cdot \mathbf{x}_{i}}{\sum\limits_{i=1}^{n} K\left(\frac{\mathbf{x}_t-\mathbf{x}_{i}}{h}\right)}$

$t\leftarrow t+1$
Until $||\mathbf{x}_{t}-\mathbf{x}_{t-1}||<\epsilon$