引言
Rodriguez 等于2014年提出快速搜索和寻找密度峰值的聚类(clustering by fast search and find of density peaks),简称密度峰值聚类(density peaks clustering,DPC)算法。
一、DPC算法
1.1 DPC算法的两个假设
1)类簇中心被类簇中其他密度较低的数据点包围;
2)类簇中心间的距离相对较远。
1.2 DPC算法的两个重要概念
1)局部密度
设有数据集为
X
N
×
M
=
[
x
1
,
x
2
,
…
,
x
N
]
T
X_{N\times M}=[x_1, x_2, … ,x_N ]^T
XN×M=[x1,x2,…,xN]T,其中
x
i
=
[
x
i
1
,
x
i
2
,
…
,
x
i
M
]
T
x_i=[x_{i1}, x_{i2}, … ,x_{iM} ]^T
xi=[xi1,xi2,…,xiM]T,N为样本个数,M为样本维数。
对于样本点 i 的局部密度,局部密度有两种计算方式,离散值采用截断核的计算方式,连续值则用高斯核的计算方式。
2.方法模型
2.1 稳健深度自编码器
深度自编码器(Deep Auto-Encoder, DAE)被大量应用在图像识别,噪声去除与数据降维领域。
它是一种无监督学习算法,模型期望输出与输入相同。
参考链接
[1] 密度峰值聚类算法(DPC) 2021.11
[2] 基于相互邻近度的密度峰值聚类算法 2021.3