基于密度的聚类算法（2）——OPTICS详解

root-cause

已于 2022-11-27 18:04:50 修改

阅读量6.4k

点赞数 9

分类专栏：聚类算法原理解析及实现文章标签：聚类算法

于 2022-10-16 13:50:41 首次发布

本文链接：https://blog.csdn.net/weixin_50514171/article/details/127346321

版权

聚类算法原理解析及实现专栏收录该内容

13 篇文章 23 订阅

订阅专栏

基于密度的聚类算法（1）——DBSCAN详解
基于密度的聚类算法（2）——OPTICS详解
基于密度的聚类算法（3）——DPC详解

1. OPTICS简介
上一节介绍的DBSCAN算法中，较小的eps将建立更多的簇，而较大的eps将吞并较小的簇建立更大的簇。而OPTICS（Ordering Points to identify the clustering structure）算法，翻译为对点排序以确定簇结构，是对DBSCAN的一种优化，可以理解为将eps从单个值放宽到范围值。

OPTICS是DBSCAN聚类的改进算法，其对输入参数不敏感。此外，对只要确定minPts的值，半径eps的轻微变化，并不会影响聚类结果。OPTICS并不显式产生聚类簇，而是生成一个增广的簇排序（比如，以可达距离为纵轴，样本点输出次序为横轴的坐标图），这个排序代表了各样本点基于密度的聚类结构，从此排序中可以得到基于任何参数eps和minPts的DBSCAN算法的聚类结果。

OPTICS聚类：有效的解决了密度不同导致的聚类效果不好的问题。

核心距离：只有核心对象才有核心距离，在核心对象中，最小邻域内密度达到阈值时的半径值。如果样本的核心距离小于半径则为核心点，否则不是核心点。

可达距离：只有核心对象才有可达距离，用于对样本点排序；

聚类顺序 : 从低层到高层 ; 从稠密到稀疏 ;

聚类时 , 低层聚类分组先构建完成 , 也就是半径 ε 参数较小的聚类分组 ;

密度可达的两种情况情况 :

① ε 参数小 : ε 参数较小的时两个样本就密度可达 ;

② ε 参数大 : ε 参数取值很大时 , 才密度可达 ;

扩展样本优先级 : 扩展样本对象时 , 优先选择第一种情况 , ε 参数较小的时就可密度可达的样本 ;

每个样本对象需要存储两个值 : 核心距离与可达距离。

2. OPTICS算法流程及python、matlab代码实现：

(1) 创建两个队列，有序队列和结果队列。

有序队列用于存储core points及其密度直达points, 并按可达距离升序排列。有序队列中的points为待处理样本；
结果队列用于存储样本点的输出次序。结果队列中的points为处理之后的样本；

(2) 选取一个未处理的core point, 将其放入结果队列，同时计算邻域内样本点的可达距离，按照可达距离升序将样本点依次放入有序队列。

(3) 若有序队列为空，则回到步骤2（重新选取处理数据）。否则，从有序队列中提取第一个样本，如果为core point, 则计算可达距离，将可达距离最小的点放入结果队列。如果不是core point, 则重复步骤2；

如果有序队列中已经存在直接密度可达点，如果此时新的可达距离小于旧的可达距离，则用新可达距离取代旧可达距离，有序队列重新排序(因为一个对象可能有多个核心对象可达)；
如果有序队列中不存在该直接密度可达样本点，则插入该点，并对有序队列重新排序；

(4) 迭代(2)，(3)，直到数据集中所有点都处理完成，则算法结束，输出结果队列中有序样本点。

可以从python 的sklearn库中调用OPTICS 函数：
class sklearn.cluster.OPTICS(min_samples=5, max_eps=inf, metric=‘minkowski’, p=2, metric_params=None, cluster_method=‘xi’, eps=None, xi=0.05, predecessor_correction=True)

from sklearn.cluster import OPTICS
import numpy as np
X = np.array([[1, 2], [2, 5], [3, 6], [8, 7], [8, 8], [7, 3]])
clustering = OPTICS(min_samples=2).fit(X)
clustering.labels_
array([0, 0, 0, 1, 1, 1])

此外，在matlab中OPTICS函数为：

% [RD,CD,order]=optics(x,k)
% -------------------------------------------------------------------------
% Aim: 
% Ordering objects of a data set to obtain the clustering structure 
% -------------------------------------------------------------------------
% Input: 
% x - data set (m,n); m-objects, n-variables
% k - number of objects in a neighborhood of the selected object
% (minimal number of objects considered as a cluster)
% -------------------------------------------------------------------------
% Output: 
% RD - vector with reachability distances (m,1)
% CD - vector with core distances (m,1)
% order - vector specifying the order of objects (1,m)
% -------------------------------------------------------------------------
% Example of use:
% x=[randn(30,2)*.4;randn(40,2)*.5+ones(40,1)*[4 4]];
% [RD,CD,order]=optics(x,4)
% -------------------------------------------------------------------------
% References: 
% [1] M. Ankrest, M. Breunig, H. Kriegel, J. Sander, 
% OPTICS: Ordering Points To Identify the Clustering Structure, 
% available from www.dbs.informatik.uni-muenchen.de/cgi-bin/papers?query=--CO
% [2] M. Daszykowski, B. Walczak, D.L. Massart, Looking for natural  
% patterns in analytical data. Part 2. Tracing local density 
% with OPTICS, J. Chem. Inf. Comput. Sci. 42 (2002) 500-507
% -------------------------------------------------------------------------
% Written by Michal Daszykowski
% Department of Chemometrics, Institute of Chemistry, 
% The University of Silesia
% December 2004
% http://www.chemometria.us.edu.pl

function [RD,CD,order,D]=optics(x,k)

[m,n]=size(x);  % m=70,n=2
CD=zeros(1,m);
RD=ones(1,m)*10^10;

% Calculate Core Distances
for i=1:m    
    D=sort(dist(x(i,:),x));
    CD(i)=D(k+1);   % 第k+1个距离是密度的界限阈值
end

order=[];
seeds=[1:m];

ind=1;

while ~isempty(seeds)
    ob=seeds(ind);
    %disp(sprintf('aaaa%i',ind))
    seeds(ind)=[];      
    order=[order ob];   % 更新order
    var1 = ones(1,length(seeds))*CD(ob);
    var2 = dist(x(ob,:),x(seeds,:));
    mm=max([var1;var2]);    % 比较两个距离矩阵，选择较大的距离矩阵
    ii=(RD(seeds))>mm;
    RD(seeds(ii))=mm(ii);
    [i1 ind]=min(RD(seeds));
    %disp(sprintf('bbbb%i',ind))
end   

RD(1)=max(RD(2:m))+.1*max(RD(2:m));

function [D]=dist(i,x)

% function: [D]=dist(i,x)
%
% Aim: 
% Calculates the Euclidean distances between the i-th object and all objects in x     
% Input: 
% i - an object (1,n)
% x - data matrix (m,n); m-objects, n-variables        
%                                                                 
% Output: 
% D - Euclidean distance (m,1)

[m,n]=size(x);
D=(sum((((ones(m,1)*i)-x).^2)'));   % 距离和

if n==1
   D=abs((ones(m,1)*i-x))';
end