机器学习--基础算法之聚类(2,优化算法)

我们发现单纯的k-means效果有限,接着我们继续讨论下基于其他的聚类算法,算是优化和进阶吧。

1.Canopy算法配合初始聚类

先看一张图:在这里插入图片描述
假设你选择如图绿色点作为中心点,T1,T2半径画圆,T1范围内归于绿色这类,T1-T2之间的属于待定状态,在T2外找个点再次重复上述步骤,直到将这些T2外的点都分好类,这样就可以大致得到分类的簇了,同样结合k-means算法,我们就可以找到k的取值的大概范围,而这些选中的中心点也可以作为k-means的初始选点。同样,当有噪声点时候可能以他作为中心画圆,你会发现没有其他样本和他是一类,我们可以认为他就是噪声。
所以综上所述,我们可以总结下:

  1. Kmeans对噪声抗干扰较弱,通过Canopy对比,将较小的NumPoint的Cluster直接去掉有利于抗干扰。
  2. Canopy选择出来的每个Canopy的centerPoint作为K会更精确。
  3. 只是针对每个Canopy的内做Kmeans聚类,减少相似计算的数量。
  4. T1,T2作为超参数,对其效果有很大影响。

2.K-means++

其中心思想就是尽可能选取更远的点作为k-means的中心点,或者说是下一个质心点。
也就是在选择初始质心点时,会考虑进相邻质心点的距离,距离越远,被选择的概率越大。

3.二分k-means

  1. 所有点作为一个簇
  2. 将该簇一分为二
  3. 选择能最大限度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇。
  4. 以此进行下去,直到簇的数目等于用户给定的数目k为止。

因为误差平方和越大,表示该簇聚类效果越不好,越有可能是多个簇被当成了一个簇,
所以我们首先需要对这个簇进行划分。因为聚类的误差平方和能够衡量聚类性能,该值越小表示数据点越接近于他们的质心,聚类效果就越好。所以需要对误差平方和最大的簇进行再一次划分,二分K均值算法可以加速K-means算法的执行速度,因为它的相似度计算少了并且不受初始化问题的影响,因为这里不存在随机点的选取,且每一步都保证了误差最小.

4.Kernel k-means

kernel k-means实际上,就是将每个样本进行一个投射到高维空间的处理,然后再将处理后的数据使用普通的k-means算法思想进行聚类。也就是说可能数据在低维度下k-means并不好分类,我们利用某个函数将样本投射到高纬度上,再利用k-means进行处理。
比如原先样本坐标(x1,x2)=(1,2),我们利用函数 ( x 1 2 , x 1 x 2 , x 2 2 ) (x_1^2, x_1x_2, x_2^2) (x12,x1x2,x22)将坐标变为(1, 2,4),就是将二维映射为三维,这个映射称为核映射,使用的函数称为核函数。这种方法叫做核方法,源自SVM算法。了解下就好啦。

5.k-medoids(k-中心聚类算法)

K-medoids和K-means是有区别的,不一样的地方在于中心点的选取:

  • K-means中,将中心点取为当前cluster中所有数据点的平均值,对异常点很敏感!
  • K-medoids中,将从当前cluster 中选取到其他所有(当前cluster中的)点的距离之和最小的点作为中心点。
    K-medoids使用绝对差值和(Sum of Absolute Differences,SAD)的度量来衡量聚类结果的优劣,在n维空间中,计算SAD的公式如下所示:
    S A D = ∑ m = 1 k ∑ p i ∈ C i ∑ j = 1 n c i ( p i j − o i j ) 2 SAD=\sum_{m=1}^k\sum_{p_i∈C_i}\sqrt{\sum_{j=1}^{n_{c_i}}(p_{ij}-o_{ij})^2} SAD=m=1kpiCij=1nci(pijoij)2
    算法流程
    ( 1 )总体n个样本点中任意选取k个点作为medoids
    ( 2 )按照与medoids最近的原则,将剩余的n-k个点分配到当前最佳的medoids代表的类中
    ( 3 )对于第i个类中除对应medoids点外的所有其他点,按顺序计算当其为新的medoids时,代价函数的值,遍历所有可能,选取代价函数最小时对应的点作为新的medoids
    ( 4 )重复2-3的过程,直到所有的medoids点不再发生变化或已达到设定的最大迭代次数
    ( 5 )产出最终确定的k个类
    与k-means区别与联系:
    在这里插入图片描述

6. Mini Batch K-Means(适合大数据的聚类算法)

当我们样本数量比较大时候,k-means之类的迭代计算距离,这样计算量会非常大,所以我们使用了Mini Batch(分批处理)的方法对数据点之间的距离进行计算。Mini Batch计算过程中不必使用所有的数据样本,而是从不同类别的样本中抽取一部分样本来代表
各自类型进行计算。由于计算样本量少,所以会相应的减少运行时间,但另一方面抽样也必然会带来准确度的下降。
该算法的迭代步骤有两步:
(1)从数据集中随机抽取一些数据形成小批量,把他们分配给最近的质心
(2)更新质心,直到质心稳定或者达到指定的迭代次数,停止计算。

7.ISODATA

这是一种动态的聚类方法,类别数目随着聚类过程而变化,当聚类结果某一类中样本数太少,或两个类间的距离太近时,合并。当聚类结果中某一类的类内方差太大,将该类进行分裂。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值