DPC改进论文 1

最新推荐文章于 2022-11-27 17:41:06 发布

toututoututurn

最新推荐文章于 2022-11-27 17:41:06 发布

阅读量1.4k

点赞数 7

文章标签：聚类

原文链接：https://doi.org/10.1016/j.patcog.2020.107554

版权

本文分析了传统DPC算法在处理密度差异较大簇时的问题，指出其假设与实现的不一致。作者提出了一种新的聚类中心识别准则，基于数据点的相对密度关系，引入了从属点概念，并定义了新的密度核，以减少对参数的依赖，提升算法在不均匀密度数据集上的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#xsj-用来帮助自己整理近期所看的论文，

Density peak clustering based on relative density relationship——pattern recognition，jian Hou等，2020

摘要

传统DPC算法将局部密度峰值点看作聚类中心，之后根据比非聚类中心点密度更大的最近邻的数据点都属于同一个簇对非中心点进行聚类。然而传统DPC算法对密度核敏感，对密度差异较大的簇聚类结果差。本文作者将其归因于DPC中假设和实现的不一致性。假设是基于数据点间的相对密度关系，而算法实施过程中关注更多的是绝对密度关系。基于此，作者提出了一种新的基于相对密度关系的聚类中心识别准则。另外，作者讨论了DPC算法中两种密度核所存在的问题，并给出了一个新的密度核。

引言部分略

传统DPC算法

DPC算法是2014年发表于 science 的关于聚类分析的新算法，因其流程和定义简单而得到广泛应用。该算法可以识别任意形状数据，能直观地找到簇的数量，也能非常容易的发现异常点。其主要核心基于两个假设，第一：聚类中心被局部密度较低的紧邻数据点所包围；第二：每个簇的聚类中心到比其密度更高的数据点之间的距离都足够远。

1，相关定义

1，欧式距离： $d_{ij}$
2，截断密度核

其中i为数据集S中的点，dc为截断距离，dij为i，j的欧式距离，其中：
在这里插入图片描述

3，高斯密度核
在这里插入图片描述
4，δ

对于密度最大的点，则

5，绘制决策图并选择簇的个数和聚类中心
基于假设，有着较大的ρ和较大的δ的点更适合作为聚类中心。因此，选择位于决策图右上角的点作为聚类中心。

传统DPC算法作者还给出了另外一种确定方式，通过 γ = ρ * δ 来确定聚类中心。
6，非聚类中心的分配策略
对于非聚类中心，根据其密度大小依次进行分配：对于数据点 a ，比 a 密度更大的点当中距离 a 最近的点所属的簇即为 a 所属的簇。直到分配完毕所有点。

2，本文作者指出传统DPC算法所存在的问题

作者认为造成传统DPC算法的主要原因是假设中的 ρ 的准则反应的是相对密度关系，而实际算法定义中却是绝对密度关系，二者之间的不一致性导致了较差的结果。另外，在处理簇之间密度差异较大的数据集时传统算法也会产生较差的结果。换句话说，DPC算法无法处理类似于如下 jain 这种具有密度不同的簇的数据。（计算点的密度无论是截断核还是高斯核）
在这里插入图片描述
如上图所示，聚类中心都选择在了下半分支，这对于聚类结果非常不利。

本文的改进DPC算法

DPC算法主要分为两步，聚类中心的选取和剩余点的分配。在这两步中都用到了某个数据点与比其密度更高的点当中的最近邻。

1, subordinate（从属点）

1.1，相关定义

给定两个数据点 $x_1$ , $x_2$ ,如果 $x_2$ 是比 $x_1$ 密度高的最近邻的数据点（即 the nearest higher-density neighbor， $δ_1 = d_{12}$ ），那么我们称 $x_1$ 是 $x_2$ 的直接从属点，反之， $x_2$ 为 $x_1$ 的直接上级点（direct superior）。记作 $x_1\rightarrow x_2$ 。如果 $x_1\rightarrow x_2$ ， $x_2\rightarrow x_3$ ，···， $x_{j-1}\rightarrow x_j$ ，那么我们称 $x_1$ 是 $x_j$ 的间接从属点，类似的， $x_j$ 为 $x_1$ 的间接上级点，记作 $x_1 \implies x_j$

借助从属点的定义作者指出，每一个数据点与它的直接上级点一定属于同一个簇。如图3所示：
在这里插入图片描述
在图3的例子中， $x_2$ 是 $x_1$ 的直接上级点， $x_3$ 是 $x_2$ 的直接上级点，最后 $x_5$ 是 $x_4$ 的直接上级点.这个关系可以表示成： $x_1\rightarrow x_2 \rightarrow x_3 \rightarrow x_4 \rightarrow x_5$ 。最后 $x_1$ 被分配到 $x_5$ 所属的簇当中。

在图3右边的例子可以看出，一个簇是由聚类中心和它的直接从属点以及间接从属点所构成的。

1.2，注意

上一小节中所提到的关于从属点的定义只适合与非聚类中心点，即聚类中心点不会是另外数据点的从属点。对于此，作者给出解释，如果聚类中心也是另一个数据点的从属点，势必会导致该簇会和另外一个聚类中心点的上级点所在簇合并，从而产生错误的聚类结果。如图4所示：
在这里插入图片描述
若B为A的上级点，那么A则会合并到B所在的簇，使得原本两个簇变成一个，这大大降低了聚类的结果。

注意到作者的目的是想准确的识别聚类中心，又给出了一个阈值来把聚类中心点和非中心点分隔开。阈值 th ，数据点的 δ > th，那么这个点会被视为聚类中心点，一定不会成为其余点的从属点。换句话说，如果 i 是比 j 密度高的数据点中的最近邻，那么他们之间的距离 $d_{ij}$ 一定比 th 大。

2，新准则(new criterion-聚类中心识别准则)

一个聚类中心应该是局部密度峰值点并且应该比它的邻居的密度大。因此，聚类中心点应该有着大量的从属点，而非中心点不是密度峰值点，也就是说它的邻居中一定有一个比他密度更大的点，这会导致它的从属点的数量较少。

作者针对从属点的数量进行了讨论，并决定选择通过计算每个点的直接从属点来作为新的准则 $ρ^{\prime}$ 。

对于数据点 $x_i$ ，其直接从属点的个数可以通过下述公式获得：
在这里插入图片描述
可以直接将 $η_i$ 作为 $ρ^{\prime}$ ，本文作者采用了如下的加强版本来进一步强化聚类中心的独特性。如下所示：

$η_i$ 为公式(5)得到的数据点 $x_i$ 的直接从属点的个数。 $s_{ηi}$ 表示 $x_i$ 的 $η_i$ 个最近邻居。

选取聚类中心点时是选择ρ和δ都大的点，则聚类中心点一定是局部密度峰值点，如果数据点 $x_i$ 是聚类中心点，那么它比周围邻居的密度应该都大，则很大可能 $ρ^{\prime} = η_i$ 。而如果数据点 $x_i$ 不是聚类中心点，那么 $x_i$ 也不是局部密度峰值点，这时 $x_i$ 的 $η_i$ 最近邻居中至少含有一个点不是 $x_i$ 的直接从属点，进而导致 $ρ^{\prime}$ 会小于 $η_i$ 。（这里的密度的标准只反映了数据点与其邻居的相对密度关系）

$ρ^{\prime}$ 与 $ρ$ 相比，新准则 $ρ^{\prime}$ 只考虑数据点和它最近邻的相对密度关系。鉴于此，只考虑相对密度关系可以很好的避免聚类中心都选择在整体密度较大的簇的问题。

3，新的密度核

在这里插入图片描述
用以前边公式中判断从属点。
其中 $s_{inn}$ 由 $x_i$ 的k个最近邻组成，k 为人为输入的参数，并且

数据集S

4，在Aggregation数据集上的聚类过程示例

在这里插入图片描述

实验结果

合成数据集

在这里插入图片描述

结论

本文作者提出了一个仅使用相对密度关系的聚类中心识别准则以增强DPC算法。作者认为造成传统DPC算法的效果不优的问题在于假设和实现过程的不一致性。提出了从属点的概念来描述相对密度关系，并且使用从属点的个数来作为聚类中心识别的标准。新的密度核准则受数据密度不均匀的影响较小。作者还提出根据到固定数量的最近邻居的平均距离来估计局部密度。

本文的主要目的是减少密度峰值算法对参数的依赖性。为了减少密度核和簇间密度差异的影响，作者提出了一个新的簇中心识别标准和一个新的密度核。

在这个过程中，作者引入了一个参数 k，它是局部密度估计中最近邻居的数量。尽管我们表明 k 可以合理地限制在一个小范围内，并且固定的 k 对于不同的数据集表现良好，但作者发现在某些数据集上 k 对聚类结果的影响相当大。作为未来工作的一个可能方向，将探索非参数密度核和一些替代 k 的参数的可能性，这些参数对聚类结果的影响较小