数据挖掘与分析课程笔记（Chapter 14）

yyywxk

已于 2022-11-03 16:00:17 修改

阅读量307

点赞数

分类专栏：数学文章标签：数据挖掘聚类

于 2022-11-03 15:43:51 首次发布

本文链接：https://blog.csdn.net/yyywxk/article/details/127671812

版权

数学专栏收录该内容

19 篇文章 1 订阅

订阅专栏

数据挖掘与分析课程笔记

参考教材：Data Mining and Analysis : MOHAMMED J.ZAKI, WAGNER MEIRA JR.

文章目录

笔记目录

数据挖掘与分析课程笔记
文章目录
Chapter 14：Hierarchical Clustering 分层聚类

Chapter 14：Hierarchical Clustering 分层聚类

14.1 预备

Def.1 给定数据集 $\mathbf{D}=\{ \mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\},(\mathbf{x}_i\in \mathbb{R}^d)$ ， $\mathbf{D}$ 的一个聚类是指 $\mathbf{D}$ 的划分 $\mathcal{C}=\{C_1,C_2,\cdots,C_k \}$ s.t. $C_i\subseteq \mathbf{D},C_i \cap C_j=\emptyset, \cup_{i=1}^k C_i=\mathbf{D}$ ；

称聚类 $\mathcal{A}=\{A_1,\cdots,A_r\}$ 是聚类 $\mathcal{B}=\{B_1,\cdots,B_s\}$ 的嵌套，如果 $r > s$ ，且对于 $\forall A_i \in \mathcal{A}$ ，存在 $B_j \in \mathcal{B}$ 使得 $A_i \subseteq B_j$

$\mathbf{D}$ 的分层聚类是指一个嵌套聚类序列 $\mathcal{C}_1,\cdots,\mathcal{C}_n$ ，其中 $\mathcal{C}_1=\{ \{\mathbf{x}_1\},\{\mathbf{x}_2\},\cdots,\{\mathbf{x}_n\}\},\cdots,\mathcal{C}_n=\{\{ \mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\} \}$ ，且 $\mathcal{C}_t$ 是 $\mathcal{C}_{t+1}$ 的嵌套。

Def.2 分层聚类示图的顶点集是指所有在 $\mathcal{C}_1,\cdots,\mathcal{C}_n$ 中出现的元，如果 $C_i \in \mathcal{C}_t$ 且 $C_j \in \mathcal{C}_{t+1}$ 满足，则 $C_i$ 与 $C_j$ 之间有一条边。

在这里插入图片描述

事实：

分层聚类示图是一棵二叉树（不一定，作为假设，假设每层只聚两类），分层聚类与其示图一一对应。
设（即数据点数为 $n$ ），则所有可能的分层聚类示图数目为 $(2 n - 3)!!$ （跃乘 $1\times 3 \times 5 \times \cdots$ ）

14.2 团聚分层聚类

算法14.1 ：

输入： $\mathbf{D}, k$

输出： $\mathcal{C}$

$\mathcal{C} \leftarrow \{C_i=\{\mathbf{x}_i\}|\mathbf{x}_i \in \mathbf{D} \}$
$\Delta \leftarrow \{\delta(\mathbf{x}_i,\mathbf{x}_j):\mathbf{x}_i,\mathbf{x}_j \in \mathbf{D} \}$
repeat
寻找最近的对 $C_i,C_j \in \mathcal{C}$
$C_{ij}\leftarrow C_i \cup C_j$
$\mathcal{C}\leftarrow (\mathcal{C} | \{C_i,C_j \}) \cup {C_{ij}}$
根据 $\mathcal{C}$ 更新距离矩阵 $\Delta$
Until $|\mathcal{C}|=k$

问题：如何定义/计算 $C_i,C_j$ 的距离，即 $\delta(C_i,C_j)$ ?

$\delta(C_i,C_j)$ 有以下五种不同方式：

简单连接： $\delta(C_i,C_j):= \min \{\delta(\mathbf{x},\mathbf{y}) | \mathbf{x} \in C_i, \mathbf{y} \in C_j\}$
完全连接： $\delta(C_i,C_j):= \max \{\delta(\mathbf{x},\mathbf{y}) | \mathbf{x} \in C_i, \mathbf{y} \in C_j\}$
组群平均： $\delta(C_i,C_j):= \frac{\sum\limits_{\mathbf{x} \in C_i}\sum\limits_{\mathbf{y} \in C_j}\delta(\mathbf{x},\mathbf{y})}{n_i \cdot n_j}, n_i=|C_i|,n_j=|C_j|$
均值距离： $\delta(C_i,C_j):= ||\boldsymbol{\mu}_i-\boldsymbol{\mu}_j|| ^2,\boldsymbol{\mu}_i=\frac{1}{n}\sum\limits_{\mathbf{x} \in C_i}\mathbf{x},\boldsymbol{\mu}_j=\frac{1}{n}\sum\limits_{\mathbf{y} \in C_j}\mathbf{y}$
极小方差：对任意 $C_i$ ，定义平方误差和 $SSE_i= \sum\limits_{\mathbf{x} \in C_i} ||\mathbf{x}-\boldsymbol{\mu}_i|| ^2$

对 $C_i,C_j,SSE_{ij}:=\sum\limits_{\mathbf{x} \in C_i\cup C_j} ||\mathbf{x}-\boldsymbol{\mu}_{ij}|| ^2$ ，其中 $\boldsymbol{\mu}_{ij}:=\frac{1}{n_i+n_j}\sum\limits_{\mathbf{x} \in C_i\cup C_j}\mathbf{x}$

$\delta(C_i,C_j):=SSE_{ij}-SSE_i-SSE_j$

证明： $\delta(C_i,C_j)=\frac{n_in_j}{n_i+n_j}||\boldsymbol{\mu}_i-\boldsymbol{\mu}_j|| ^2$

简记： $C_{ij}:=C_i\cup C_j,n_{ij}:=n_i+n_j$

注意： $C_i \cap C_j=\emptyset$ ，故 $C_{ij}|=n_i+n_j$
$\begin{aligned} \delta\left(C_{i}, C_{j}\right) &=\sum_{\mathbf{z} \in C_{i j}}\left\|\mathbf{z}-\boldsymbol{\mu}_{i j}\right\|^{2}-\sum_{\mathbf{x} \in C_{i}}\left\|\mathbf{x}-\boldsymbol{\mu}_{i}\right\|^{2}-\sum_{\mathbf{y} \in C_{j}}\left\|\mathbf{y}-\boldsymbol{\mu}_{j}\right\|^{2} \\ &=\sum_{\mathbf{z} \in C_{i j}} \mathbf{z}^{T} \mathbf{z}-n_{i j} \boldsymbol{\mu}_{i j}^{T} \boldsymbol{\mu}_{i j}-\sum_{\mathbf{x} \in C_{i}} \mathbf{x}^{T} \mathbf{x}+n_{i} \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{i}-\sum_{\mathbf{y} \in C_{j}} \mathbf{y}^{T} \mathbf{y}+n_{j} \boldsymbol{\mu}_{j}^{T} \boldsymbol{\mu}_{j} \\ &=n_{i} \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{i}+n_{j} \boldsymbol{\mu}_{j}^{T} \boldsymbol{\mu}_{j}-\left(n_{i}+n_{j}\right) \boldsymbol{\mu}_{i j}^{T} \boldsymbol{\mu}_{i j} \end{aligned}$
注意到： $\boldsymbol{\mu}_{i j}=\frac{1}{n_{ij}}\sum\limits_{\mathbf{z} \in C_{ij}} \mathbf{z}=\frac{1}{n_i+n_j}(\sum\limits_{\mathbf{x} \in C_{i}} \mathbf{x}+\sum\limits_{\mathbf{y} \in C_{j}} \mathbf{y})=\frac{1}{n_i+n_j}(n_i\boldsymbol{\mu}_{i}+n_j\boldsymbol{\mu}_{j})$

故： $\boldsymbol{\mu}_{i j}^{T} \boldsymbol{\mu}_{i j}=\frac{1}{\left(n_{i}+n_{j}\right)^{2}}\left(n_{i}^{2} \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{i}+2 n_{i} n_{j} \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j}+n_{j}^{2} \boldsymbol{\mu}_{j}^{T} \boldsymbol{\mu}_{j}\right)$
$\begin{aligned} \delta\left(C_{i}, C_{j}\right) &=n_{i} \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{i}+n_{j} \mu_{j}^{T} \boldsymbol{\mu}_{j}-\frac{1}{\left(n_{i}+n_{j}\right)}\left(n_{i}^{2} \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{i}+2 n_{i} n_{j} \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j}+n_{j}^{2} \boldsymbol{\mu}_{j}^{T} \boldsymbol{\mu}_{j}\right) \\ &=\frac{n_{i}\left(n_{i}+n_{j}\right) \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{i}+n_{j}\left(n_{i}+n_{j}\right) \boldsymbol{\mu}_{j}^{T} \boldsymbol{\mu}_{j}-n_{i}^{2} \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{i}-2 n_{i} n_{j} \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j}-n_{j}^{2} \boldsymbol{\mu}_{j}^{T} \boldsymbol{\mu}_{j}}{n_{i}+n_{j}} \\ &=\frac{n_{i} n_{j}\left(\boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{i}-2 \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j}+\boldsymbol{\mu}_{j}^{T} \boldsymbol{\mu}_{j}\right)}{n_{i}+n_{j}} \\ &=\left(\frac{n_{i} n_{j}}{n_{i}+n_{j}}\right)\left\|\boldsymbol{\mu}_{i}-\boldsymbol{\mu}_{j}\right\|^{2} \end{aligned}$
问题：如何快速计算算法14.1 第7步：更新矩阵？

☆ Lance–Williams formula
$\begin{array}{r} \delta\left(C_{i j}, C_{r}\right)=\alpha_{i} \cdot \delta\left(C_{i}, C_{r}\right)+\alpha_{j} \cdot \delta\left(C_{j}, C_{r}\right)+ \\ \beta \cdot \delta\left(C_{i}, C_{j}\right)+\gamma \cdot\left|\delta\left(C_{i}, C_{r}\right)-\delta\left(C_{j}, C_{r}\right)\right| \end{array}$

Measure	$\alpha_i$	$\alpha_j$	$\beta$	$\gamma$
简单连接	$1\over2$	$1\over2$	$0$	$-{1\over2}$
完全连接	$1\over2$	$1\over2$	$0$	$1\over2$
组群平均	$\frac{n_i}{n_i+n_j}$	$\frac{n_j}{n_i+n_j}$	$0$	$0$
均值距离	$\frac{n_i}{n_i+n_j}$	$\frac{n_j}{n_i+n_j}$	$\frac{-n_in_j}{(n_i+n_j)^2}$	$0$
极小方差	$\frac{n_i+n_r}{n_i+n_j+n_r}$	$\frac{n_j+n_r}{n_i+n_j+n_r}$	$\frac{-n_r}{n_i+n_j+n_r}$	$0$

Proof:

简单连接
$\begin{aligned} \delta\left(C_{i j}, C_{r}\right) &= \min \{\delta({\mathbf{x}, \mathbf{y}} )|\mathbf{x}\in C_{ij}, \mathbf{y} \in C_r\} \\ &= \min \{\delta({C_{i}, C_{r}), \delta(C_{j}, C_{r}} )\} \end{aligned}\\ a=\frac{a+b-|a-b|}{2},b=\frac{a+b+|a-b|}{2}$
完全连接

见上图
组群平均
$\begin{aligned} \delta\left(C_{i j}, C_{r}\right) &= \frac{\sum\limits_{\mathbf{x} \in C_i\cup C_j}\sum\limits_{\mathbf{y} \in C_r}\delta(\mathbf{x},\mathbf{y})}{(n_i+n_j )\cdot n_r} \\ &= \frac{\sum\limits_{\mathbf{x} \in C_i}\sum\limits_{\mathbf{y} \in C_r}\delta(\mathbf{x},\mathbf{y})+\sum\limits_{\mathbf{x} \in C_j}\sum\limits_{\mathbf{y} \in C_r}\delta(\mathbf{x},\mathbf{y})}{(n_i+n_j )\cdot n_r} \\ &=\frac{n_in_r\delta(C_i,C_r)+n_jn_r\delta(C_j,C_r)}{(n_i+n_j )\cdot n_r}\\ &=\frac{n_i\delta(C_i,C_r)+n_j\delta(C_j,C_r)}{(n_i+n_j )} \end{aligned}$
均值距离：作业
极小方差

基于均值距离的结论再代入 $\delta(C_i,C_j)=\frac{n_in_j}{n_i+n_j}||\boldsymbol{\mu}_i-\boldsymbol{\mu}_j|| ^2$

事实：算法14.1 的复杂度为 $O(n^2\log n)$

yyywxk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘与分析课程笔记（Chapter 14）

Def.1 给定数据集 D={x1,x2,⋯ ,xn},(xi∈Rd)\mathbf{D}=\{ \mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\},(\mathbf{x}_i\in \mathbb{R}^d)D={x1,x2,⋯,xn},(xi∈Rd)，D\mathbf{D}D 的一个聚类是指 D\mathbf{D}D 的划分 C={C1,C2,⋯ ,Ck}\mathcal{C}=\{C_1,C_2,\cdots,C_k \}C={C1,C2,⋯,C
复制链接

扫一扫