机器学习--基础算法之聚类(2,优化算法）

最新推荐文章于 2023-04-14 13:32:21 发布

ββ我是舒克

最新推荐文章于 2023-04-14 13:32:21 发布

阅读量582

点赞数

文章标签： canopy k-means++ 二分k-means k-中心聚类算法 Kernel k-means

本文链接：https://blog.csdn.net/weixin_44054142/article/details/89180289

版权

我们发现单纯的k-means效果有限，接着我们继续讨论下基于其他的聚类算法，算是优化和进阶吧。

1.Canopy算法配合初始聚类

先看一张图：在这里插入图片描述
假设你选择如图绿色点作为中心点，T1，T2半径画圆，T1范围内归于绿色这类，T1-T2之间的属于待定状态，在T2外找个点再次重复上述步骤，直到将这些T2外的点都分好类，这样就可以大致得到分类的簇了，同样结合k-means算法，我们就可以找到k的取值的大概范围，而这些选中的中心点也可以作为k-means的初始选点。同样，当有噪声点时候可能以他作为中心画圆，你会发现没有其他样本和他是一类，我们可以认为他就是噪声。
所以综上所述，我们可以总结下：

Kmeans对噪声抗干扰较弱，通过Canopy对比，将较小的NumPoint的Cluster直接去掉有利于抗干扰。
Canopy选择出来的每个Canopy的centerPoint作为K会更精确。
只是针对每个Canopy的内做Kmeans聚类，减少相似计算的数量。
T1,T2作为超参数，对其效果有很大影响。

2.K-means++

其中心思想就是尽可能选取更远的点作为k-means的中心点，或者说是下一个质心点。
也就是在选择初始质心点时，会考虑进相邻质心点的距离，距离越远，被选择的概率越大。

3.二分k-means

所有点作为一个簇
将该簇一分为二
选择能最大限度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。
以此进行下去，直到簇的数目等于用户给定的数目k为止。

因为误差平方和越大，表示该簇聚类效果越不好，越有可能是多个簇被当成了一个簇，
所以我们首先需要对这个簇进行划分。因为聚类的误差平方和能够衡量聚类性能，该值越小表示数据点越接近于他们的质心，聚类效果就越好。所以需要对误差平方和最大的簇进行再一次划分，二分K均值算法可以加速K-means算法的执行速度，因为它的相似度计算少了并且不受初始化问题的影响，因为这里不存在随机点的选取，且每一步都保证了误差最小.

4.Kernel k-means

kernel k-means实际上，就是将每个样本进行一个投射到高维空间的处理，然后再将处理后的数据使用普通的k-means算法思想进行聚类。也就是说可能数据在低维度下k-means并不好分类，我们利用某个函数将样本投射到高纬度上，再利用k-means进行处理。
比如原先样本坐标（x1,x2）=（1,2），我们利用函数 $x_1^2, x_1x_2, x_2^2)$ 将坐标变为(1, 2,4）,就是将二维映射为三维，这个映射称为核映射，使用的函数称为核函数。这种方法叫做核方法，源自SVM算法。了解下就好啦。

5.k-medoids（k-中心聚类算法）

K-medoids和K-means是有区别的，不一样的地方在于中心点的选取：

K-means中，将中心点取为当前cluster中所有数据点的平均值，对异常点很敏感!
K-medoids中，将从当前cluster 中选取到其他所有（当前cluster中的）点的距离之和最小的点作为中心点。
K-medoids使用绝对差值和（Sum of Absolute Differences，SAD）的度量来衡量聚类结果的优劣，在n维空间中，计算SAD的公式如下所示：
$SAD=\sum_{m=1}^k\sum_{p_i∈C_i}\sqrt{\sum_{j=1}^{n_{c_i}}(p_{ij}-o_{ij})^2}$
算法流程：
( 1 )总体n个样本点中任意选取k个点作为medoids
( 2 )按照与medoids最近的原则，将剩余的n-k个点分配到当前最佳的medoids代表的类中
( 3 )对于第i个类中除对应medoids点外的所有其他点，按顺序计算当其为新的medoids时，代价函数的值，遍历所有可能，选取代价函数最小时对应的点作为新的medoids
( 4 )重复2-3的过程，直到所有的medoids点不再发生变化或已达到设定的最大迭代次数
( 5 )产出最终确定的k个类
与k-means区别与联系：

6. Mini Batch K-Means（适合大数据的聚类算法）

当我们样本数量比较大时候，k-means之类的迭代计算距离，这样计算量会非常大，所以我们使用了Mini Batch（分批处理）的方法对数据点之间的距离进行计算。Mini Batch计算过程中不必使用所有的数据样本，而是从不同类别的样本中抽取一部分样本来代表
各自类型进行计算。由于计算样本量少，所以会相应的减少运行时间，但另一方面抽样也必然会带来准确度的下降。
该算法的迭代步骤有两步：
(1)从数据集中随机抽取一些数据形成小批量，把他们分配给最近的质心
(2)更新质心，直到质心稳定或者达到指定的迭代次数，停止计算。