weighted Kernel k-means 加权核k均值算法理解及其实现（一）

本文链接：https://blog.csdn.net/yukgwy60648/article/details/54620432

那就从k-means开始吧

对于机器学习的新手小白来说，k-means算法应该都会接触到吧。传统的k-means算法是一个硬聚类（因为要指定k这个参数啦）算法。这里利用百度的解释

它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

看上去好难懂，实际上任务就是要聚类，然后将相关的点聚成一堆嘛。这里我们可以给出k-means的核心公式

这里可以看到，实际上就是计算每个样本点簇中心的距离，然后判断出到哪个簇中心距离最短，然后分给那个簇。然后下次迭代时，簇中心就按照新分配的点重新进行计算了，然后所有的点再同样计算样本点到簇中心的距离，重新分配到不同的簇中。所以这样不断迭代下去，就能够收敛了，得到最后的聚类效果。

加上“核”？那就成了Kernel k-means

“核”是什么

核函数的方法已经被提出很久了，也得到了很多的推广应用。很多算法参进了核函数，就变得有趣得多。核函数通常与SVM经常结合在一起进行使用。总的来说，核函数，就是将输入空间，映射到高维的特征空间。然后再在高维的数据同看进行数据处理。这种映射的话，是非线性变换的，这也才能能够将输入空间映射出不同特征的高维空间。

当然，要给出这种非线性运算的确切算法，是很困难的。所以当我们的现实运算算法求解时候只用到了