谱聚类简介

xinming_365

于 2020-05-21 23:48:23 发布

阅读量1.1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/xinming_365/article/details/106262286

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

谱聚类

谱聚类是一种基于图论的聚类方法，通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据聚类的母的。谱聚类可以理解为将高维空间的数据映射到低维，然后在低维空间用其它聚类算法（如KMeans，c-均值聚类）进行聚类。

相似图构造

相似图，用来刻画数据点局部的近邻关系。顶点 $v_i$ 对应一个样本点。

k-近邻图
如果 $v_i$ 是 $v_j$ 的近邻，那么 $v_i$ 和 $v_j$ 之间存在一条边。由于每个样本点的近邻情况不完全相同，因此这种方法构造的相似图不是对称的。
对称k-近邻图：
如果两个点互为k近邻，那么这两个点之间存在一条边。
$\epsilon$ 近邻图
任意两个距离小于 $\epsilon$ 的点之间存在一条边。
全连接图
这种方法表示任意两个样本点之间都有相似度，但是距离较远的样本点之间相似度较低。

图拉普拉斯矩阵

在引入拉普拉斯矩阵之前，先介绍下面的符号表示：

$w_{ij}$ 是边权重
节点 $v_i \in V$ 的度 (degreee)，定义为： $d_i=\sum_{j=1}^{n} w_{ij}$
度矩阵： $D=diag(d_1, \cdots ,d_n)$
加权邻接矩阵： $W=(w_{ij})_{i,j=1,\cdots,n}$ ，即构造的相似度矩阵。

未标准化拉普拉斯矩阵

$L = D - W$

标准化拉普拉斯矩阵

标准化拉普拉斯矩阵有两种表示方法，一种基于随机游走（Random Walk）的标准化拉普拉斯矩阵 $L{_{rw}}$ 和对称标准化拉普拉斯矩阵 $L{_{sym}}$ ，定义如下：
$L_{rw} = D^{-1} L$
$L_{s y m}=D^{-1 / 2} L D^{-1 / 2}=I-D^{-1 / 2} W D^{-1 / 2}$

拉普拉斯矩阵的性质

Laplacian矩阵L，有下面几个性质：

(a) 对任意一个向量 $\in R^n$ ，都有下面的性质：
对于为标准化拉普拉斯矩阵有：
$f^{T} L f=\frac{1}{2} \sum_{i, j=1}^{n} w_{i j}\left(f_{i}-f_{j}\right)^{2}$
对于这个性质的证明过程如下：
$\begin{aligned} f^{T} L f &=f^{T} D f-f^{T} W f=\sum_{i=1}^{n} d_{i} f_{i}^{2}-\sum_{i, j=1}^{n} f_{i} f_{j} w_{i j} \\ &=\frac{1}{2}\left(\sum_{i=1}^{n} d_{i} f_{i}^{2}-2 \sum_{i, j=1}^{n} f_{i} f_{j} w_{i j}+\sum_{j=1}^{n} d_{j} f_{j}^{2}\right)=\frac{1}{2} \sum_{i, j=1}^{n} w_{i j}\left(f_{i}-f_{j}\right)^{2} \end{aligned}$
对于标准化拉普拉斯矩阵有：
$f^{T} L_{r w} f=f^{T} L_{s y m} f=\frac{1}{2} \sum_{i, j=1}^{n} w_{i j}\left(\frac{f_{i}}{\sqrt{d_{i}}}-\frac{f_{j}}{\sqrt{d_{j}}}\right)^{2}$
(b) L和 $L_{rw}$ 是对称的和半正定的。
w和D矩阵都是对称矩阵，所以L是对称矩阵。由于权重 $w_{ij} \geq 0$ ，根据性质(a)，所以 $f^{T} L f \geq 0$ ，即L为半正定矩阵。

谱聚类算法

计算相似性矩阵 $S\in R^{n \times n}$ ，
计算度矩阵，从而计算未归一化的图拉普拉斯矩阵L
计算L的前k个特征向量 $u_1,...,u_k$
令 $\in R^{n\times k}$ 为以前k个特征向量 $u_1,...,u_k$ 为列向量构成的矩阵（前k个最小特征值构成的特征向量）
设 $y_i \in R^k$ 是U的第 $i$ 行构成的向量
使用C-均值聚类方法将样本点 $y_i$ ，聚类称为k类 $C_1, C_2,...,C_k$
输出，最终聚类为 $A_1,...,A_k$ ，其中 $A_i=\{j | y_j \in C_i\}$

谱聚类算法推导

聚类问题，可以被看成寻找图的一个划分，不同点集之间的边权重小，（意味着不同cut的点彼此不相似），而同一点集内的边权重较大，（同一个cut点彼此相似）

对于一个无向图G，每个子图的点集合为： $A_1, A_2, \cdots, A_k$ ，定义图切分（graph cut）为：
$cut(A_1, A_2, \cdots, A_k) = \frac{1}{2} \sum_{i=1}^{k} W\left(A_{i}, \bar{A}_{i}\right)$
其中：任意两个子图点集的权重切为： $\sum_{i\in A,j\in B} w_{ij}$
对于切图，还有另外两种方式，分别为RadioCut和Ncut
RadioCut切图中，不仅考虑使得不同组之间的权重最小化，也考虑了每个组中的样本点尽量多：
$\text { RatioCut }\left(A_{1}, A_{2}, \ldots, A_{k}\right)=\frac{1}{2} \sum_{i=1}^{k} \frac{W\left(A_{i}, \bar{A}_{i}\right)}{\left|A_{i}\right|}=\sum_{i=1}^{k} \frac{\operatorname{cut}\left(A_{i}, \bar{A}_{i}\right)}{\left|A_{i}\right|}$
Ncut在最小化损失函数外，还考虑了子图之间的权重大小。由于子图样本个数多，不代表权重就打，所以切图时基于权重也更加符合我们的目标。因此一般来说Ncut优于RadioCut，定义为：
$\text { RatioCut }\left(A_{1}, A_{2}, \ldots, A_{k}\right)=\frac{1}{2} \sum_{i=1}^{k} \frac{W\left(A_{i}, \bar{A}_{i}\right)}{vol (A_i)}=\sum_{i=1}^{k} \frac{\operatorname{cut}\left(A_{i}, \bar{A}_{i}\right)}{vol (A_i)}$
其中 $(A_i) = \sum_ {i \in A} d_i$ ，表示 $A_i$ 中元素度的总和。