层次聚类算法伪码和matlab算法

最新推荐文章于 2023-10-11 00:00:25 发布

zanghui426

最新推荐文章于 2023-10-11 00:00:25 发布

阅读量7.1k

点赞数 3

1. 层次聚类

层次聚类算法与之前所讲的顺序聚类有很大不同，它不再产生单一聚类，而是产生一个聚类层次。说白了就是一棵层次树。介绍层次聚类之前，要先介绍一个概念——嵌套聚类。讲的简单点，聚类的嵌套与程序的嵌套一样，一个聚类中R₁包含了另一个R₂，那这就是R₂嵌套在R₁中，或者说是R₁嵌套了R₂。具体说怎么算嵌套呢？聚类R₁={{x₁,x₂},{x₃},{x₄,x₅}嵌套在聚类R₂={{x₁,x₂,x₃},{x₄,x₅}}中，但并不嵌套在聚类R₃={{x₁,x₄},{x₃},{x₂,x₅}}中。

层次聚类算法产生一个嵌套聚类的层次，算法最多包含N步，在第t步，执行的操作就是在前t-1步的聚类基础上生成新聚类。主要有合并和分裂两种实现。我这里只讲合并，因为前一阶段正好课题用到，另外就是合并更容易理解和实现。当然分裂其实就是合并的相反过程。

令g(C_i,C_j)为所有可能的X聚类对的函数，此函数用于测量两个聚类之间的近邻性，用t表示当前聚类的层次级别。通用合并算法的伪码描述如下：

1. 初始化：

a) 选择Â₀={{x₁},…,{x_N}}

b) 令t=0

2. 重复执行以下步骤：

a) t=t+1

b) 在Â_t_-1中选择一组(C_i,C_j)，满足

c) 定义C_q=C_iÈC_j，并且产生新聚类Â_t=(Â_t_-1-{C_i,C_j})È{C_q}

直到所有向量全被加入到单一聚类中。

这一方法在t层时将两个向量合并，那么这两个向量在以后的聚类过程中的后继聚类都是相同的，也就是说一旦它们走到一起，那么以后就不会再分离……（很专一哦O(∩_∩)O~）。这也就引出了这个算法的缺点，当在算法开始阶段，若出现聚类错误，那么这种错误将一直会被延续，无法修改。在层次t上，有N-t个聚类，为了确定t+1层上要合并的聚类对，必须考虑(N-t)(N-t-1)/2个聚类对。这样，聚类过程总共要考虑的聚类对数量就是(N-1)N(N+1)/6，也就是说整个算法的时间复杂度是O(N³)。

举例来说，如果令X={x₁, x₂, x₃, x₄, x₅}，其中x₁=[1, 1]^T, x₂=[2, 1]^T, x₃=[5, 4]^T, x₄=[6, 5]^T, x₅=[6.5, 6]^T。那么合并算法执行的过程可以用下面的图来表示。

P(X)是不相似矩阵

该算法从核心过程上来讲，就是先计算出数据集中向量之间的距离，记为距离矩阵（也叫不相似矩阵）。接着通过不断的对矩阵更新，完成聚类。矩阵更新算法的伪码描述如下：

1. 初始化：

a) Â₀={{x₁},…,{x_N}}

b) P₀=P(X) (距离矩阵)

c) t=0

2. 重复执行以下步骤：

a) t=t+1

b) 合并C_i和C_j为C_q，这两个聚类满足d(C_i,C_j)=min_{r,s=1,…,N,r}_≠sd(C_r,C_s)

c) 删除第i和j行，第i和j列，同时插入新的行和列，新的行列为新合并的类C_q与所有其他聚类之间的距离值

直到将所有向量合并到一个聚类中

大家可以看到，层次聚类算法的输出结果总是一个聚类，这往往不是我们想要的，我们总希望算法在得到我们期望的结果后就停止。那么我们如何控制呢？常用的做法就是为算法限制一个阈值，矩阵更新过程中，总是将两个距离最近的聚类合并，那么我们只要加入一个阈值判断，当这个距离大于阈值时，就说明不需要再合并了，此时算法结束。这样的阈值引入可以很好的控制算法结束时间，将层次截断在某一层上。

2. 算法实现

MATLAB实现了层次聚类算法，基本语句如下：

1X = [1 2;2.5 4.5;2 2;4 1.5;4 2.5] ;
2Y = pdist(X,'euclid');
3Z = linkage(Y,'single');
4T = cluster(Z,'cutoff',cutoff);

MATLAB还有一个简化的层次聚类版本，一句话搞定

1T = clusterdata(X,cutoff)

zanghui426

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
层次聚类算法伪码和matlab算法

1. 层次聚类层次聚类算法与之前所讲的顺序聚类有很大不同，它不再产生单一聚类，而是产生一个聚类层次。说白了就是一棵层次树。介绍层次聚类之前，要先介绍一个概念——嵌套聚类。讲的简单点，聚类的嵌套与程序的嵌套一样，一个聚类中R1包含了另一个R2，那这就是R2嵌套在R1中，或者说是R1嵌套了R2。具体说怎么算嵌套呢？聚类R1={{x1,x2},{x3},{x4,x5}嵌套在聚类R2={{x1,x
复制链接

扫一扫