中心化共正则化谱聚类算法(Centralized Co-Regularized Spectral Clustering, CCSC)是一种多视图聚类算法,它通共享正则化项来协调不同视图之间的信息
,以提高聚类的性能。
CCSC算法的目标是同时考虑多个视图的数据,并在所有视图上找到一致的聚类结果
。
下面我们将详细地介绍CCSC算法的步骤、涉及的公式及其作用。
CCSC算法的步骤和公式
1. 数据预处理
- 公式:对每个视图的数据进行Z-score
标准化
处理,即
x ^ v , i = x v , i − μ v σ v \hat{x}_{v,i} = \frac{x_{v,i} - \mu_v}{\sigma_v} x^v,i=σvxv,i−μv
其中 - x v , i x_{v,i} xv,i是第 v v v个视图中第 i i i个数据点的原始值
-
μ
v
\mu_v
μv是第
v
v
v个视图的
均值
-
σ
v
\sigma_v
σv是第
v
v
v个视图的
标准差
- x ^ v , i \hat{x}_{v,i} x^v,i是标准化后的值。
2. 构建单视图拉普拉斯矩阵
- 公式:对于每个视图
v
v
v,计算其
归一化拉普拉斯矩阵
L ( v ) L(v) L(v),定义为
L ( v ) = I − D ( v ) − 1 2 A ( v ) D ( v ) − 1 2 L(v) = I - D(v)^{-\frac{1}{2}} A(v) D(v)^{-\frac{1}{2}} L(v)=I−D(v)−21A(v)D(v)−21
其中 -
A
(
v
)
A(v)
A(v)是第
v
v
v个视图的
邻接矩阵
- D ( v ) D(v) D(v)是第 v v v个视图的度矩阵
- I I I是单位矩阵。
3. 共正则化目标函数优化
- 公式:定义共正则化的目标函数为
min U ∑ v = 1 m α v T r ( U T L ( v ) U ) + β ∑ v = 1 m ∑ u ≠ v γ v u T r ( ( U T − U u T ) M v u ( U − U u ) ) \min_U \sum_{v=1}^m \alpha_v Tr(U^T L(v) U) + \beta \sum_{v=1}^m \sum_{u \neq v} \gamma_{vu} Tr((U^T - U_u^T)M_{vu}(U - U_u)) Uminv=1∑mαvTr(UTL(v)U)+βv=1∑mu=v∑γvuTr((UT−UuT)Mvu(U−Uu))
其中 -
U
U
U是所有视图
共享的
聚类表示矩阵 - U u U_u Uu是第 u u u个视图的聚类表示矩阵
- T r Tr Tr表示矩阵的迹
- α v \alpha_v αv是第 v v v个视图的权重
- β \beta β和 γ v u \gamma_{vu} γvu是正则化参数
-
M
v
u
M_{vu}
Mvu是
协调矩阵
,它量化了第 v v v个视图和第 u u u个视图之间的关系。
4. 交替优化
- 初始化:随机初始化或基于某些启发式方法为每个视图选择初始的聚类表示矩阵 U ( v ) U(v) U(v)。
- 迭代循环:
- `固定其他视图的聚类表示矩阵,更新每个视图的聚类表示矩阵 U ( v ) U(v) U(v),使其最小化目标函数。
- 更新所有视图共享的聚类表示矩阵 U U U,使其最小化目标函数。
公式的作用
- 数据预处理:通过Z-score标准化处理,使每个特征的均值为0,方差为1,这
有助于消除不同尺度和范围的特征对聚类结果的影响。
- 构建单视图拉普拉斯矩阵:拉普拉斯矩阵
L
(
v
)
L(v)
L(v)描述了图的结构,其中的归一化确保了每个节点的贡献与其度相关联,这有助于在谱聚类中
获得更好的分割效果。
- 共正则化目标函数:目标函数包含两部分,一部分是每个视图的谱聚类损失,另一部分是视图之间的正则化项,后者促使不同视图上的聚类表示
趋于一致
,增强了算法的鲁棒性和准确性。 - 交替优化:通过交替优化每个视图的聚类表示矩阵和所有视图共享的聚类表示矩阵,算法能够逐步收敛到一个协调的解决方案,其中所有视图的聚类结果相互一致。
通过上述步骤,CCSC算法能够在多视图数据集上执行有效的聚类,同时利用不同视图之间的信息共享和正则化,提高了聚类的准确性和一致性。