k-means++算法的c++实现

最新推荐文章于 2024-07-12 03:36:43 发布

zjuzly

最新推荐文章于 2024-07-12 03:36:43 发布

阅读量8.4k

点赞数 6

分类专栏：机器学习算法文章标签： k-means 聚类算法机器学习

本文链接：https://blog.csdn.net/zhouliyang1990/article/details/25188267

版权

本文详细介绍了k-means++算法，它是k-means算法的增强版，着重解决了初始点选择的问题。通过一种策略性的方式选择聚类中心，提高了聚类效果和算法效率。文章解释了算法步骤，特别是第三步的概率选点机制，并提供了部分源码进行说明。

摘要由CSDN通过智能技术生成

k-means++是机器学习领域一种基本的聚类算法，是k-means算法的增强版，与k-means算法的唯一区别就在于初始点的选择上。众所周知，通常情况下，k-means选择初始点都是以一种随机的方式选择的，选择的初始点的好坏，对聚类的效果以及算法的迭代次数上都有很明显的影响。最坏的情况如有两个初始点选在了同一个聚类中，那么最终有可能导致原本属于一个聚类的点被分成了两类。

针对上述k-means的问题，k-means++算法对初始点的选择采用一些策略，从而大大改善了算法的有效性。k-means++算法是这样的：

假设：

a：将数据聚成k类；

b：x表示数据集中的任一数据点；

c：Di表示第i个数据点与距离其最近的聚类中心之间的距离平方。

1、随机生成数据集（可以是任意维的，为了演示方便，我只采用了二维）；

2、在数据集中随机选择一个数据点，作为我们的第一个聚类中心C1；

3、以概率Di/sum(Di)选择第i个数据点作为下一个聚类中心；

4、重复3，直到已经找到k个聚类中心{C1，C2，...，Ck}；

5、执行k-means算法。

值得注意的是，可能有人会对第三步以概率Di/sum(Di)选点不是很明白，或者说这到底是怎么样的一种选法，应该在程序中如何体现，我先贴出源码中一部分：

template<typename Real, int Dim>
void KMeans<Real, Dim>::kpp(vector<KmPoint> &pts, vector<KmPoint> &cents){
	Real sum = 0;
	vector<Real> d;
	d.resize(pts.size());
	cents[0] = pts[rand() % pts.size()];
	vector<KmPoint> tmpCents;
	tmpCents.push_back(cents[0]);
	for(int k = 1; k < (int)cents.size(); ++k){
		sum = 0;
		for(int i = 0; i < (int)pts.size(); ++i){
			nearest(pts[i], tmpCents, d[i]);
			sum += d[i];
		}
		sum = randf(sum);
		for(int i = 0; i < (int)pts.size(); ++i){
			<strong>if((sum -= d[i]) > 0)	continue;</strong>
			cents[k] = pts[i];
			tmpCents.push_back(cents[k]);
			break;
		}
	}
	for(int i = 0; i < (int)pts.size(); ++i){
		int id = nearest(pts[i], cents, *(new Real));
		pts[i].setId(id);
	}
}

也许大家可以从这段代码中窥得一些思想，我们知道，概率事件在程序中是可以用随机数模拟的，不错，这里以