【机器学习】谱聚类（Spectral Clustering）

最新推荐文章于 2023-06-22 11:29:15 发布

infinite_with

最新推荐文章于 2023-06-22 11:29:15 发布

阅读量6.7k

点赞数 11

分类专栏：机器学习文章标签：聚类机器学习算法

本文链接：https://blog.csdn.net/weixin_45591044/article/details/122747024

版权

机器学习专栏收录该内容

20 篇文章 12 订阅

订阅专栏

疑问

谱聚类的概念
谱聚类是一种针对图结构的聚类方法，将每个点都看作是一个图结构上的点，所以，判断两个点是否属于同一类的依据就是，两个点在图结构上是否有边相连，可以是直接相连也可以是间接相连。本质上就是一个图切割问题。

什么是谱（Spectral ）
谱（spectral）就是指矩阵的特征值

那么谱与图的联系究竟是什么
首先我们知道图结构可以用邻接矩阵 / 相似矩阵来表示，通过矩阵就能清楚图的结构信息，具体是怎么建立联系的，我们接下来一步一步分析。

一、问题描述

假设有 $n$ 个实数样本数据如下，每个样本有 $d$ 维，目标是要聚 $c$ 个类，并且数据分布并非云团。
$X=\left\{x_{1}^{d}, x_{2}^{d}, \ldots, x_{n}^{d}\right\}^{T}, \quad X \in R^{n \times d}$

二、构造图结构

在图论中我们常用邻接矩阵W表示图（无向图是为了保证邻接矩阵是对称矩阵），因此我们只需按某个准则来计算数据点对之间的距离即可获得数据点的邻接矩阵。
$W=\left[\begin{array}{lll} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \end{array}\right]$
接下来主要介绍常用的，效果比较好的k-近邻图构造准则

k-近邻法

构造图的相似矩阵（邻接矩阵）步骤：
1.计算点对之间的欧氏距离；
2.通过给定参数 $k$ ，选取距离当前点最近的k kk个点为邻居(常用高斯核计算距离)，令其余点到该点距离为0。
$w_{i j}=\left\{\begin{array}{ll} e^{-\frac{\left\|x_{i}-x_{j}\right\|_{2}^{2}}{2 \sigma^{2}}} & \text { if } x_{i} \in k n n\left(x_{j}\right) \\ 0 & \text { otherwise } \end{array} \quad\left(\text { 可能存在 } w_{i j} \neq w_{j i}\right)\right.$
这样构造的问题：数据从有向图变成了无向图，即你是我的 $k$ 近邻，但我不一定属于你的 $k$ 近邻。为了保证相似矩阵的对称性
，论文[1] (A tutorial on spectral clustering) 给出两种解决方法；
方法1》若两点间有两条有向边，则忽略一条仅保留一条，具体做法如下：
$w_{i j}=w_{j i}= \begin{cases}e^{-\frac{\left\|x_{i}-x_{j}\right\|_{2}^{2}}{2 \sigma^{2}}} & \text { if } x_{i} \in \operatorname{knn}\left(x_{j}\right) \text { or } x_{j} \in \operatorname{knn}\left(x_{i}\right) \\ 0 & \text { otherwise }\end{cases}$
方法2》当且仅当你是我的 $k$ 近邻，我也属于你的 $k$ 近邻时，这两点之间的边才有权值，具体做法如下：
$w_{i j}=w_{j i}= \begin{cases}e^{-\frac{\left\|x_{i}-x_{j}\right\|_{2}^{2}}{2 \sigma^{2}}} & \text { if } x_{i} \in k n n\left(x_{j}\right) \text { and } x_{j} \in k n n\left(x_{i}\right) \\ 0 & \text { otherwise }\end{cases}$
而实战中常采用的方法则是：
$W=\frac{W+W^{T}}{2}$
简单粗暴！

三、确定目标函数

构造好了图结构，将数据点聚成 $c$ 个类的问题，可以转换将无向图切割为 $c$ 个子图的问题。
在这里插入图片描述
由上图可知，很容易想到一个准则，即我们将距离较远（相似度较低）的两个点切分到不同子图时，需要付出代价最小。因此我们可以定义一个代价函数来作为我们初步的目标函数。

3.1 初始目标函数（最小割 $\text{MinCut}$ 方法）

对于无向赋权图 $\operatorname{Graph}(X, E)$ 进行切分的目标是将 $G$ 划分成相互无连接的 $k$ 个子图, 每个子图包含点的集合 $A_{1}, A_{2}, \cdots, A_{k}$ , 且满足 $A_{i} \cap A_{j}=\phi, A_{1} \cup A_{2} \cup \cdots \cup A_{k}=V$ 。
对于任意两个子图点的集合 $\subset V, A \cap B=\phi$ , 定义 $A$ 和 $B$ 之间的切图权重为:
$B)=\sum_{i \in A, j \in B,} w_{i j}$
对于 $k$ 个子图点的集合 $A_{1}, A_{2}, \cdots, A_{k}$ , 定义切图 $c u t$ 为:
$\operatorname{cut}\left(A_{1}, A_{2}, \cdots, A_{k}\right)=\frac{1}{2} \sum_{i=1}^{k} W\left(A_{i}, \bar{A}_{i}\right)$
其中 $\bar{A}_{i}$ 为 $A_{i}$ , 的补集, 即除了子集 $A_{j}$ , 以外的其他 $X$ 的子集的并集。

因此，我们可以进一步得到初步离散优化问题，即最小割目标函数：
$\min C u t(V) \Rightarrow \min \sum_{v_{i} \in A_{k}, v_{j} \in \bar{A}_{k}, e_{i j} \in E} w_{i j}$

3.2 引入指示向量（ $\text{indicator vector}$ ）

得到最小割目标函数后，我们发现其约束 $v_{i} \in A_{k}, v_{j} \in \bar{A}_{k}, e_{i j} \in E$ 比较模糊，较难求解，因此我们需要定性地引入指标向量来细化目标函数。

3.2.1 先讨论只有两个类的情况（ $c = 2$ ）

目标函数为： $\min \operatorname{Cut}(V) \Leftrightarrow\min \operatorname{Cut}(A, \bar{A}) \Leftrightarrow\min \frac{1}{2} \sum_{v_{i} \in A, v_{j} \in \bar{A}, e_{i j} \in E}{w_{i j}}$

我们定义指示向量 $f=\left(f_{1}, f_{2}, \ldots, f_{n}\right)^{T} \in N^{n}$
$f_{i}= \begin{cases}1 & \text { if } v_{i} \in A \\ 0 & \text { if } v_{i} \in \bar{A}\end{cases}$

因此目标函数转变为：
$\min \frac{1}{2} \sum_{v_{i} \in A, v_{j} \in \bar{A}, e_{i j} \in E} w_{i j} \Leftrightarrow \min \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i j}\left(f_{i}-f_{j}\right)^{2}$
接下来我们展开 $\frac{1}{2} w_{i j}\left(f_{i}-f_{j}\right)^{2}$ 二次项： $\begin{aligned} \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i j}\left(f_{i}-f_{j}\right)^{2} &=\frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n}\left(w_{i j} f_{i}^{2}-2 f_{i} f_{j} w_{i j}+w_{i j} f_{j}^{2}\right) \\ &=\frac{1}{2}\left(\sum_{i=1}^{n} d_{i} f_{i}^{2}-\sum_{i, j=1}^{n} 2 f_{i} f_{j} w_{i j}+\sum_{j=1}^{n} d_{j} f_{j}^{2}\right) \\ &=\frac{1}{2}\left(2 \sum_{i=1}^{n} d_{i} f_{i}^{2}-2 \sum_{i, j=1}^{n} f_{i} f_{j} w_{i j}\right) \\ &=\sum_{i=1}^{n} d_{i} f_{i}^{2}-\sum_{i, j=1}^{n} f_{i} f_{j} w_{i j}=\sum_{i=1}^{n} f_{i} d_{i} f_{i}-\sum_{i, j=1}^{n} f_{i} w_{i j} f_{j} \\ &=f^{T} D f-f^{T} W f \\ &=f^{T} L f \end{aligned}$
其中， $D$ 为度矩阵， $W$ 为邻接矩阵(相似矩阵)，而 $L = D - W$ 为 $L a p l a c i a n$ 矩阵

因此，原目标函数等价于： $\begin{gathered} \underset{A \subset V}{\arg \min } C u t(V) \Leftrightarrow \underset{f i \in N^{n}}{\arg \min } \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i j}\left(f_{i}-f_{j}\right)^{2} \Leftrightarrow \underset{f_{i} \in N^{n}}{\arg \min } f^{T} L f \\ \end{gathered}$
我们通过引入布尔指示向量将一个抽象的切割函数 $C u t (V)$ 转化为具体可求解的 $f^{T} L f$ 。但是这是一个离散优化函数，无法对其求导。

3.2.2 有多个类的多聚类（ $c$ 取任意）

对于多聚类问题，我们要聚 $c$ 个类 $\ldots, c)$ ，因此我们仅仅需要将原来一个指示向量扩展为 $c$ 个指示向量组合成的指示矩阵 $H$ 即可，其余步骤一样。

首先，我们定义指示向量 $h_{k}=\left(h_{(1, k)}, h_{(2, k)}, \ldots, h_{(n, k)}\right)^{T} \in N^{n \times 1}$ (其中: $\ldots, c$ )并满足如下公式： $h_{i k}=\left\{\begin{array}{ll} 1 & \text { if } v_{i} \in A_{k} \\ 0 & \text { otherwise } \end{array} \quad(i=1, \ldots, n ; k=1, \ldots, c)\right.$
将这 $c$ 个指示向量 $h_{k}$ 组合成一个指示矩阵 $\in N^{n \times c}$ ，矩阵 $H$ 当中的每一列指示向量正交 ( $o r t h o n o r m a l$ ) 于其他任何一列非线性相关向量。（注：不代表 $H$ 一定是正交矩阵）
$\operatorname{Tr}\left(H^{T} H\right)=n>0$
因此我们可以得到如下目标函数：
$\begin{aligned} \underset{A 1, \ldots, A_{c}}{\arg \min } C u t\left(A_{1}, \ldots, A_{c}\right) \Leftrightarrow \underset{H \in R^{n \times c}}{\arg \min } \operatorname{Tr}\left(H^{T} L H\right) & \\ \text { s.t } \operatorname{Tr}\left(H^{T} H\right)=n \\ & \end{aligned}$
但上面的目标函数存在一定局限，最小割得到的分割结果往往更倾向于将所连边最少且边权值较低的孤立点分割出来。如下图所示。
在这里插入图片描述
因此我们需要加入其它限制以改进目标函数分割效果。

3.3 改进（RatioCut与Ncut）

为了达到均衡的效果，我们很容易想到在原目标函数(切成每个子图的代价)的基础上除以切图后每个子图的规模。

==如何度量切图后子图的规模? ==

从顶点数的角度思考可以想到用子图的顶点数作为该子图的规模。
从边的角度思考可以想到用子图的边权和作为子图的规模。

两种度量方式用数学语言有如下定义：
$\\ 子图 A 的体积 \operatorname{vol}(A):=\sum_{v_{i} \in A} d_{i}$

我们可以得到如下两个改进后的目标函数RatioCut(比例切割)与Ncut(归一化切割)：
$\begin{aligned} &\operatorname{RatioCut}\left(A_{1}, A_{2}, \ldots, A_{c}\right):=\sum_{k=1}^{c} \frac{C u t\left(A_{k}, \bar{A}_{k}\right)}{\left|A_{k}\right|}=\frac{1}{2} \sum_{k=1}^{c} \frac{W\left(A_{k}, \bar{A}_{k}\right)}{\left|A_{k}\right|} \\ &\operatorname{Ncut}\left(A_{1}, A_{2}, \ldots, A_{c}\right):=\sum_{k=1}^{c} \frac{C u t\left(A_{k}, \bar{A}_{k}\right)}{\operatorname{vol}\left(A_{k}\right)}=\frac{1}{2} \sum_{k=1}^{c} \frac{W\left(A_{k}, \bar{A}_{k}\right)}{\operatorname{vol}\left(A_{k}\right)} \end{aligned}$

四、目标函数求解

下面，我们先从非标准化 $R a t i o C u t$ 目标函数讲起。

4.1 $R a t i o C u t$ 目标函数的近似解

4.1.1 二聚类（ $c = 2$ ）

$\underset{A \subset V}{ min} \text{ } RatioCut(A,\bar{A})$

上节我们推导出
$\min \;Cut(V) \Leftrightarrow\min \; f^TLf$
我们用拉格朗日乘子转化为无约束问题后可以得到一个有趣的结论。现在我们可以得到等价的完整目标函数:
$\begin{aligned} \min _{A \subset V} \operatorname{RatioCut}(A, \bar{A}) \Leftrightarrow & \min _{f \in R^{n}} f^{T} L f \\ & \text { s.t } f \perp 1 \quad(that \text{ }is \text{ }f^T1=0)\\ & f^{T} f=n \quad\left(f^{T} f>0\right) \end{aligned}$
使用拉格朗日乘子将约束问题转化为无约束问题

有约束的目标函数我们不会做，我们可以转化为无约束问题，因此目标函数可以转化为如下 $\text{ }$ 函数 $L(f,\lambda)$ :
$\begin{aligned} L(f, \lambda):=& f^{T} L f-\lambda\left(f^{T} 1\right)-\lambda\left(f^{T} f-n\right) \\ =& f^{T} L f-\lambda\left(f^{T} f-n\right) \\ \end{aligned}$
等价将目标约束问题转换：
$\begin{aligned} \min _{f \in R^{n}} L(f, \lambda) \Leftrightarrow &\min _{f \in R^{n}} f^{T} L f \\ \text { s.t }& f \perp 1\left(\text { that is } f^{T} 1=0\right) \\ & f^{T} f=n \quad\left(f^{T} f>0\right) \end{aligned}$
现在我们得到无约束且连续的目标函数，由于二次型函数是天然的凸函数 亦可导，可以快速找到全局最优解，只需要令其导数为 0 即可得到极值。
(1) 求微分
$\begin{aligned} d L(f, \lambda) &=d\left[f^{T} L f-\lambda\left(f^{T} f-n\right)\right]=d\left(f^{T} L f-\lambda f^{T} f\right) \\ &=d\left(f^{T}\right) L f+f^{T} L(d f)-\lambda d\left(f^{T}\right) f-\lambda f^{T}(d f) \\ &=(d f)^{T} L f+f^{T} L(d f)-\lambda(d f)^{T} f-\lambda f^{T}(d f) \\ &=\operatorname{tr}\left[(d f)^{T} L f+f^{T} L(d f)-\lambda(d f)^{T} f-\lambda f^{T}(d f)\right] \\ &=\operatorname{tr}\left[(d f)^{T} L f\right]+\operatorname{tr}\left[f^{T} L(d f)\right]-\lambda \cdot \operatorname{tr}\left[(d f)^{T} f\right]-\lambda \cdot \operatorname{tr}\left[f^{T}(d f)\right] \\ &=\operatorname{tr}\left[f^{T} L^{T}(d f)\right]+\operatorname{tr}\left[f^{T} L(d f)\right]-\lambda \cdot \operatorname{tr}\left[f^{T}(d f)\right]-\lambda \cdot \operatorname{tr}\left[f^{T}(d f)\right] \\ &=\operatorname{tr}\left[f^{T}\left(L^{T}+L\right)(d f)-2 \lambda f^{T}(d f)\right] \\ &=\left[f^{T}\left(L^{T}+L\right)-2 \lambda f^{T}\right] d f \\ &=\left[2 f^{T} L^{T}-2 \lambda f^{T}\right] d f \end{aligned}$

(2) 求得导数
由标量微分 $d y = f^{'} (x) d x$ 推导出向量微分 $(\frac{dy}{dx})^Tdx$ 得:

$\begin{aligned} \frac{d L(f, \lambda)}{d f} &=\left[2 f^{T} L^{T}-2 \lambda f^{T}\right]^{T}=2 L f-2 \lambda f=0 \\ & \Rightarrow L f=\lambda f \end{aligned}$
我们得到了一个惊人的结论！！当 $L a g r a n g e$ 乘子 $\lambda$ 是拉普拉斯矩阵 $L$ 的特征值( $e i g e n v a l u e$ )且指示向量 $f$ 是 $L$ 的特征向量( $e i g e n v e c t o r$ )时，函数有极值。

那么，这个函数的极值到底是什么呢？
在等式两边，分别左乘 $f^T$ 凑成目标函数形式后为:
$f^TLf=\lambda f ^Tf=\lambda n$
因为 $n = ∣ V ∣$ 是常数，显然取决于目标函数值大小的元素是 $\lambda$ ，即
$\frac{f^TLf}{f^Tf}=\min \lambda$
也就是说 $L$ 的特征值 $\lambda$ 越大，目标函数值越大；特征值 $\lambda$ 越小，目标函数值越小。
渐渐的，我们发现原来的连续优化问题已经转化成了特征分解问题。
那么 $\lambda$ 的最小值是多少呢？ $λ_{min} =0$
令拉普拉斯矩阵的第二小特征值作为目标函数最优值。
对于二聚类( $c = 2$ )问题，这个很好做，毕竟我们的解向量 $f\in R^n$
，因此最简单粗暴的定性方法是判断 $f_i$ 是否大于等于0，即
$\begin{cases}v_{i} \in A & \text { if } f_{i} \geq 0 \\ v_{i} \in \bar{A} & \text { if } f_{i}<0\end{cases}$

4.1.2 多聚类( $c$ 取任意值)

$\text { RatioCut }\left(A_{1}, \ldots, A_{c}\right)=\sum_{k=1}^{c} h_{i}^{T} L h_{i}=\sum_{k=1}^{c}\left(H^{T} L H\right)_{i i}=\operatorname{Tr}\left(H^{T} L H\right)$

由于指示矩阵 $H$ 中向量之间的正交性，我们可以得到如下完整目标函数：
$\begin{aligned} &\underset{H \in R^{n \times c}}{\arg \min } \operatorname{Tr}\left(H^{T} L H\right) \\ &\text { s.t } H^{T} H=I \quad\left[\operatorname{Tr}\left(H^{T} H\right)>0\right] \end{aligned}$
类似的，可以推出：
$min\text{ }Tr(H^T LH)⇔minλ$

由于特征值 $\lambda$ (也是拉格朗日乘子)在这里的物理意义代表切图的代价，因此我们可以将前 $k$ 小特征值对应的 $k$ 个特征向量拼接成一个矩阵 $U\in R^{n\times k}$ 作为 $H\in R^{n\times c}$ 的近似解。然后使用传统的 $k - m e a n s$ 方法，将连续实数值离散化，将矩阵 $U$ 的 $n$ 行向量聚为 $c$ 行向量，最终得到的 $l a b e l$ 即为最终聚类结果。

4.2 $N c u t$ 目标函数的近似解

大家可以按 $R a t i d o C u t$ 解法自己推导，下面给出 $N c u t$ 目标函数：
$\operatorname{Ncut}\left(A_{1}, A_{2}, \ldots, A_{c}\right):=\sum_{k=1}^{c} \frac{\operatorname{Cut}\left(A_{k}, \bar{A}_{k}\right)}{\operatorname{vol}\left(A_{k}\right)}=\frac{1}{2} \sum_{k=1}^{c} \frac{W\left(A_{k}, \bar{A}_{k}\right)}{\operatorname{vol}\left(A_{k}\right)}$

具体代码实现可以看看这篇博客：

谱聚类的成功之处在于它没有很强的假设，相比 $k - m e a n s$ 假设聚类的数据分布是 $凸$ 的，谱聚类可以解决很普遍的聚类问题。
只要保证相似图是稀疏的，即使对于大数据集，谱聚类也可以有效地实现。一旦选择了相似图，我们只需解决一个线性问题，就不会陷入局部极小值或多次使用不同的初始化重新启动算法。
谱聚类的不足在于图构造方式的不同导致其聚类结果不同，这是其聚类不稳定的重要因素。

谱图理论（spectrum theory）实操

参考文献

[1] Von Luxburg U. A tutorial on spectral clustering[J]. Statistics and computing, 2007, 17(4): 395-416.
[2]https://blog.csdn.net/SL_World/article/details/104423536
[3]从拉普拉斯矩阵说到谱聚类

infinite_with

关注

11
点赞
踩
109

收藏

觉得还不错? 一键收藏
2
评论
【机器学习】谱聚类（Spectral Clustering）

疑问谱聚类的概念谱聚类是一种针对图结构的聚类方法，将每个点都看作是一个图结构上的点，所以，判断两个点是否属于同一类的依据就是，两个点在图结构上是否有边相连，可以是直接相连也可以是间接相连。本质上就是一个图切割问题。什么是谱（Spectral ）谱（spectral）就是指矩阵的特征值那么谱与图的联系究竟是什么首先我们知道图结构可以用邻接矩阵 / 相似矩阵来表示，通过矩阵就能清楚图的结构信息，具体是怎么建立联系的，我们接下来一步一步分析。一、问题描述假设有nnn个实数样本数据如下，每个样本
复制链接

扫一扫