层次聚类算法(一)

  层次聚类(hierarchical clustering)试图在不同层次上对数据集进行划分,从而形成树形的聚类结构,数据集的划分可采用“自底向上”的聚合策略,也可以采用“自顶向下”的分拆策略。即层次聚类可以是凝聚的也可以是分裂的。

   凝聚的层次聚类方法使用自底向上的策略。即刚开始每个点都认为是一个簇,然后在迭代过程中,不断的合并直到满足某种条件。在合并步骤中,它找出最相近的簇(“最相近”的衡量标准可以子集设定),并且合并他们,形成一个簇。

   分裂的层次聚类方法使用自顶向下的策略,即把所有的对象都放到一个簇中开始。不断向下划分,知道满足某种设定的条件。

         不管是凝聚的还是分裂的方法,一个核心问题就是度量两个簇之间的距离

度量方式主要有一下几种:


            

  层次聚类算法也是基于距离来衡量相似性的,不过距离衡量的是簇的相似性,层次聚类也是旨在发现球形簇

  当使用最小距离来度量两个簇之间的距离时,有时被称为最近邻聚类算法当最近的两个簇之间的距离超过设定的阈值之后,迭代就会终止,则其成为单连接算法。(最小距离由两个簇中的最近的两个样本决定)

  当使用最大距离来度量两个簇之间的距离时,有时被称为最远邻聚类算法。如果最近的两个簇之间的最远距离大于某个设定的阈值,迭代终止,称为全连接算法。(最大距离由连个簇中最大的连个样本决定)

     最小/最大距离代表了簇间距离距离度量的两个极端,对离群点以及噪声点过分敏感,使用均值距离/平均距离是一种折中的办法,可以克服离群点等的影响。均值距离计算简单,但是平均距离既能处理数值数据也可以处理分类数据。

  分裂或者是凝聚的层次聚类算法,形式都是一样的,在这里我们以自底向上的凝聚的聚类算法为例,简单阐述一下层次聚类的基本思想:所谓从下而上地合并cluster,具体而言,就是每次找到距离最短的两个cluster,然后进行合并成一个大的cluster,直到全部合并为一个cluster。整个过程就是建立一个树结构,类似于下图。看懂了自底向上的凝聚的聚类结构形式,那么自顶向下的形式也就懂了。




















评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值