快速LDP-MST：一种用于大型数据集的高效基于密度峰值的聚类方法（Matlab代码实现）

wlz249

于 2023-12-25 19:48:13 发布

阅读量44

点赞数

文章标签：聚类 matlab 数据挖掘

本文链接：https://blog.csdn.net/weixin_66436111/article/details/135207388

版权

本文介绍了一种改进的基于密度峰值的聚类方法FastLDP-MST，针对LDP-MST在处理大型数据集时效率低下的问题进行了优化。FastLDP-MST在保持原有优点的同时，提升了在大规模数据集上的性能。研究通过实验展示了其在效率上的优势。

摘要由CSDN通过智能技术生成

💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。

⛳️座右铭：行百里者，半于九十。

📋📋📋本文目录如下：🎁🎁🎁

目录

💥1 概述

📚2 运行结果

🎉3 参考文献

🌈4 Matlab代码实现

💥1 概述

最近，提出了一种新的基于密度峰值的聚类方法，称为基于局部密度峰值最小生成树（LDP-MST）的聚类方法，具有一些吸引人的优点，例如能够检测任意形状的簇，对噪声和参数不太敏感。然而，我们也发现了LDP-MST在效率上的局限性。具体来说，LDP-MST的时间复杂度为O(NlogN+M2)，其中N表示数据集大小，M是表示局部密度峰值数量的中间变量。正如我们的实验结果所显示的，当处理大型数据集时，M的值可能会非常大，因此LDP-MST中涉及O(M2)时间项的步骤会耗时。在最坏的情况下，M的值可能非常接近N，这意味着LDP-MST的时间复杂度在M的最坏情况下可能为O(N2)。在这项研究中，我们使用更高效的算法来实现那些涉及O(M2)时间项的LDP-MST步骤，使得提出的方法Fast LDP-MST即使M≈N也具有O(NlogN)的时间复杂度。我们的实验证明，Fast LDP-MST在大型数据集上总体上比LDP-MST更高效，而又不损害LDP-MST在有效性、鲁棒性和用户友好性方面的优点。

📚2 运行结果

部分代码：

addpath(genpath(pwd));
%% Datasets
data_names={'A3','S1','UB','2G','Spiral','Jain','3Circles','AGG','Flame','GaSpCi','GaSpCiNo','1D-EqSp','data_TB_100000','data_SF_100000','data_CC_100000', 'data_CG_100000', 'data_Flower_100000','data_TB_1000000','data_SF_1000000','data_CC_1000000','data_CG_1000000','data_Flower_1000000','One_Dim_uniform_data_1048576','data_TB_10000000'};

%% Methods
method_names = {'FastLDPMST'};
%% Start Testing
record_num = 0;
for name_id=1:length(data_names)
%% load dataset
clear data annotation_data
dataName = data_names{name_id};
disp([num2str(name_id),', ',dataName,':'])
[data,annotation_data,nC,dataName] = load_data(dataName);
[N,dim]=size(data);

%% parameter setting
ratio = 0.01; % [0.01,0.02] is recommended; not needed for manual cutting;
MinSize=ratio*N; % Note: parameter MinSize (i.e.,the minimal cluster size) is dependent on ratio;
K = ceil(log2(N));
%% compare different methods
for method_id = 1:length(method_names)
method = method_names{method_id};
switch method
case 'FastLDPMST'
[Label,time] = FastLDPMST(data, nC, MinSize, K); %% nC: number of clusters;
otherwise
error('method is not included...please name the method appropriately.')
end
%% evaluate result and plot
% diff_colors = linspecer(length(unique(Label)));