💥💥💞💞欢迎来到本博客❤️❤️💥💥
🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。
⛳️座右铭:行百里者,半于九十。
📋📋📋本文目录如下:🎁🎁🎁
目录
💥1 概述
最近,提出了一种新的基于密度峰值的聚类方法,称为基于局部密度峰值最小生成树(LDP-MST)的聚类方法,具有一些吸引人的优点,例如能够检测任意形状的簇,对噪声和参数不太敏感。然而,我们也发现了LDP-MST在效率上的局限性。具体来说,LDP-MST的时间复杂度为O(NlogN+M2),其中N表示数据集大小,M是表示局部密度峰值数量的中间变量。正如我们的实验结果所显示的,当处理大型数据集时,M的值可能会非常大,因此LDP-MST中涉及O(M2)时间项的步骤会耗时。在最坏的情况下,M的值可能非常接近N,这意味着LDP-MST的时间复杂度在M的最坏情况下可能为O(N2)。在这项研究中,我们使用更高效的算法来实现那些涉及O(M2)时间项的LDP-MST步骤,使得提出的方法Fast LDP-MST即使M≈N也具有O(NlogN)的时间复杂度。我们的实验证明,Fast LDP-MST在大型数据集上总体上比LDP-MST更高效,而又不损害LDP-MST在有效性、鲁棒性和用户友好性方面的优点。
📚2 运行结果
部分代码:
addpath(genpath(pwd));
%% Datasets
data_names={'A3','S1','UB','2G','Spiral','Jain','3Circles','AGG','Flame','GaSpCi','GaSpCiNo','1D-EqSp','data_TB_100000','data_SF_100000','data_CC_100000', 'data_CG_100000', 'data_Flower_100000','data_TB_1000000','data_SF_1000000','data_CC_1000000','data_CG_1000000','data_Flower_1000000','One_Dim_uniform_data_1048576','data_TB_10000000'};
%% Methods
method_names = {'FastLDPMST'};
%% Start Testing
record_num = 0;
for name_id=1:length(data_names)
%% load dataset
clear data annotation_data
dataName = data_names{name_id};
disp([num2str(name_id),', ',dataName,':'])
[data,annotation_data,nC,dataName] = load_data(dataName);
[N,dim]=size(data);
%% parameter setting
ratio = 0.01; % [0.01,0.02] is recommended; not needed for manual cutting;
MinSize=ratio*N; % Note: parameter MinSize (i.e.,the minimal cluster size) is dependent on ratio;
K = ceil(log2(N));
%% compare different methods
for method_id = 1:length(method_names)
method = method_names{method_id};
switch method
case 'FastLDPMST'
[Label,time] = FastLDPMST(data, nC, MinSize, K); %% nC: number of clusters;
otherwise
error('method is not included...please name the method appropriately.')
end
%% evaluate result and plot
% diff_colors = linspecer(length(unique(Label)));
🎉3 参考文献
文章中一些内容引自网络,会注明出处或引用为参考文献,难免有未尽之处,如有不妥,请随时联系删除。