机器学习系列-K-Means算法

3.K-Means 介绍

K-Means :最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。

基本思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。

3.1 K-Means聚类原理

假设我们提取到原始数据的集合为(X1, X2, „, Xn),并且每个Xi为d维的向量(d维向量由原始数据的d个特征组成),K-means聚类的目的就是,在给定分类组数k(k ≤ n)值的条件下,将原始数据分成k类  S = {S1, S2, …, Sk}。

 

3.2 K-Means 执行过程:

①从数据集D中随机取k个元素,作为k个簇的各自的中心。 

②分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇。 

③根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。 

④将D中全部元素按照新的中心重新聚类。

⑤重复第3、4步,直到每个簇的中心基本不再变化。

⑥将结果输出。

 

难点主要是初始中心K值的选择。

我们经常接触到的聚类分析,一般都是数值聚类,一种常见的做法是同时提取 N 种特征,将它们放在一起组成一个 N 维向量,从而得到一个从原始数据集合到 N 维向量空间的映射——总是需要显式地或者隐式地完成这样一个过程,然后基于某种规则进行分类,在该规则下,同组分类具有最大的相似性。 

聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x。

 

3.3 K-Means 过程图如下:

 

如图所示,数据样本用圆点表示,每个簇的中心点用叉叉表示。(a)刚开始时是原始数据,杂乱无章,没有label,看起来都一样,都是绿色的。(b)假设数据集可以分为两类,令K=2,随机在坐标上选两个点,作为两个类的中心点。(c-f)演示了聚类的两种迭代。先划分,把每个数据样本划分到最近的中心点那一簇;划分完后,更新每个簇的中心,即把该簇的所有数据点的坐标加起来去平均值。这样不断进行”划分—更新—划分—更新”,直到每个簇的中心不在移动为止。

3.4 k-Means聚类算法的应用 

聚类就是按照一定的标准将事物进行区分和分类的过程,该过程是无监督的,即事先并不知道关于类分的任何知识。聚类分析又称为数据分割,它是指应用数学的方法研究和处理给定对象的分类,使得每个组内部对象之间的相关性比其他对象之间的相关性高,组间的相异性较高。 

聚类算法被用于许多知识领域,这些领域通常要求找出特定数据中的“自然关联”。自然关联的定义取决于不同的领域和特定的应用,可以具有多种形式。

 

3.5 K-Means 典型的应用例如: 

①商务上,帮助市场分析人员从客户基本资料库中发现不同的客户群,并用购买模式来刻画不同客户群的特征; 

②聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理;

③生物学上,用于推导植物和动物的分类,对基因进行分类,获得对种群固有结构的认识; 

④地理信息方面,在地球观测数据库中相似区域的确定、汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋的分组上可以发挥作用;

4.Canopy 算法介绍

Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。

基本的算法是,从一个点集合开始并且随机删除一个,创建一个包含这个点的Canopy,并在剩余的点集合上迭代。对于每个点,如果它距离第一个点的距离小于T1,然后这个点就加入这个聚集中。除此之外,如果这个距离<T2,然后将这个点从这个集合中删除。这样非常靠近原点的点将避免所有的未来处理,不可以再做其它Canopy的中心。这个算法循环到初始集合为空为止,聚集一个集合的Canopies,每个可以包含一个或者多个点。每个点可以包含在多于一个的Canopy中。

Canopy算法其实本身也可以用于聚类,但它的结果可以为之后代价较高聚类提供帮助,其用在数据预处理上要比单纯拿来聚类更有帮助。Canopy聚类经常被用作更加严格的聚类技术的初始步骤,像是K均值聚类。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。

4.1 Canopy算法的步骤

(1) 将所有数据放进list中,选择两个距离,T1,T2,T1>T2

(2)While(list不为空)

 { 

随机选择一个节点做canopy的中心;并从list删除该点;

遍历list:

对于任何一条记录,计算其到各个canopy的距离;

如果距离<T2,则给此数据打上强标记,并从list删除这条记录;

如果距离<T1,则给此数据打上弱标记;

如果到任何canopy中心的距离都>T1,那么将这条记录作为一个新的canopy的中心,并从list中删除这个元素;

}

 

需要注意的是参数的调整:
当T1过大时,会使许多点属于多个Canopy,可能会造成各个簇的中心点间距离较近,各簇间区别不明显;
当T2过大时,增加强标记数据点的数量,会减少簇个个数;T2过小,会增加簇的个数,同时增加计算时间;

 

过程图如下所示:

4.2 计算两点间的距离的方法

CosineDistanceMeasure:计算两向量间的夹角

SquaredEuclideanDistanceMeasure:计算欧式距离的平方

EuclideanDistanceMeasure:计算欧式距离

ManhattanDistanceMeasure:马氏距离,貌似图像处理中用的比较多

 

4.3 Canopy使用注意点

  1. 首先是轻量距离量度的选择,是选择数据模型其中的一个属性,还是选择其他外部属性这对canopy的分布最为重要。
  2. T1,T2的取值影响到canopy重叠率f,以及canopy的粒度;
  3. Canopy有消除孤立点的作用,而k-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的;
  4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好;

4.4 Canopy算法

与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值,以及大致的K歌中心点,再使用K-means进行进一步“细”聚类。所以Canopy+K-means这种形式聚类算法聚类效果良好。

 

4.5 Canopy算法解析:

1)原始数据集合List按照一定的规则进行排序(这个规则是任意的,但是一旦确定就不再更改),初始距离阈值为T1、T2,且T1>T2(T1、T2的设定可以根据用户的需要,或者使用交叉验证获得)。

2)在List中随机挑选一个数据向量A,使用一个粗糙距离计算方式计算A与List中其他样本数据向量之间的距离d。

3)根据第2步中的距离d,把d小于T1的样本数据向量划到一个canopy中,同时把d小于T2的样本数据向量从候选中心向量名单(这里可以理解为就是List)中移除。

4)重复第2、3步,直到候选中心向量名单为空,即List为空,算法结束。

 

算法原理比较简单,就是对数据进行不断遍历,T2<dis<T1的可以作为中心名单,dis<T2的认为与canopy太近了,以后不会作为中心点,从list中删除,这样的话一个点可能属于多个canopy。

 

 Canopy的效果图:

4.6 Canopy算法优势:

1、Kmeans对噪声抗干扰较弱,通过Canopy对比较小的NumPoint的Cluster直接去掉 有利于抗干扰。

2、Canopy选择出来的每个Canopy的centerPoint作为Kmeans比较科学。

3、只是针对每个Canopy的内容做Kmeans聚类,减少相似计算的数量。

  总结起来就是四个关键词:噪声点,K值,K中心点,计算开销。(尽管这个算法准确性不是很理想,但是还是有用武之地的)

    

4.7 Canopy+K-Means的混合算法

Canopy+K-MEANS算法思路如下:

Stage1、聚类最耗费计算的地方是计算对象相似性的时候,Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性,将相似的对象放在一个子集中,这个子集被叫做Canopy,通过一系列计算得到若干Canopy,Canopy之间可以是重叠的,但不会存在某个对象不属于任何Canopy的情况,可以把这一阶段看做数据预处理;

  Stage2、在各个Canopy内使用传统的聚类方法(如K-means),不属于同一Canopy的对象之间不进行相似性计算。从这个方法起码可以看出两点好处:首先,Canopy不要太大且Canopy之间重叠的不要太多的话会大大减少后续需要计算相似性的对象的个数;其次,类似于K-means这样的聚类方法是需要人为指出K的值的,通过Stage1得到的Canopy个数完全可以作为这个K值,一定程度上减少了选择K的盲目性。

 

5.聚类算法K-Means与Canopy

首先介绍先K-means算法:所有做聚类分析的数据对象,会被描述成n为空间中的一个点,用向量(Vector)表示;算法开始会随机选择K个点,作为一个簇的中心,然后其余的点会根据它与每个簇心的距离,被分配到最近簇中去;接着以迭代的方式,先重新计算每个簇的中心(通过其包含的所有向量的平均值),计算完成后对所有点属于哪个簇进行重新划分;一直如此迭代直到过程收敛;可证明迭代次数是有限的。

虽然K-means简单且高效,但它存在一定问题,首先K值(即簇的数量)是人为确定的,在对数据不了解的情况下,很难给出合理的K值;其次初始簇心的选择是随机的,若选择到了较孤立的点,会对聚类的效果产生非常大的影响。因此通常会用Canopy算法配合,进行初始化,确定簇数以及初始簇心。

Canopy算法首先会要求输入两个阀值 T1和T2,T1>T2;算法有一个集群这里叫Canopy的集合(Set),当然一开始它是空的;然后会将读取到的第一个点作为集合中的一个Canopy,接着读取下一个点,若该点与集合中的每个Canopy计算距离,若这个距离小于T1,则这个点会分配给这个Canopy(一个点可以分配给多个Canopy),而当这个距离小于T2时这个点不能作为一个新的Canopy而放到集合中。也就是说当一个点只要与集合中任意一个Canopy的距离小于T2了,即表示它与那个Canopy太近不能作为新的Canopy。若都没有则生成一个新的Canopy放入集合中。以此循环,直到没有点了。

所以这里用到的聚类分析算法的思路是:首先通过Canopy算法进行聚类,以确定簇数以及初始簇中心向量,接着通过K-means算法进行迭代运算,收敛出最后的聚类结果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值