k-means++算法的c++实现

k-means++是机器学习领域一种基本的聚类算法,是k-means算法的增强版,与k-means算法的唯一区别就在于初始点的选择上。众所周知, 通常情况下,k-means选择初始点都是以一种随机的方式选择的,选择的初始点的好坏,对聚类的效果以及算法的迭代次数上都有很明显的影响。最坏的情况如有两个初始点选在了同一个聚类中,那么最终有可能导致原本属于一个聚类的点被分成了两类。

针对上述k-means的问题,k-means++算法对初始点的选择采用一些策略,从而大大改善了算法的有效性。k-means++算法是这样的:

假设:

a:将数据聚成k类;

b:x表示数据集中的任一数据点;

c:Di表示第i个数据点与距离其最近的聚类中心之间的距离平方。

1、随机生成数据集(可以是任意维的,为了演示方便,我只采用了二维);

2、在数据集中随机选择一个数据点,作为我们的第一个聚类中心C1;

3、以概率Di/sum(Di)选择第i个数据点作为下一个聚类中心;

4、重复3,直到已经找到k个聚类中心{C1,C2,...,Ck};

5、执行k-means算法。

值得注意的是,可能有人会对第三步以概率Di/sum(Di)选点不是很明白,或者说这到底是怎么样的一种选法,应该在程序中如何体现,我先贴出源码中一部分:

template<typename Real, int Dim>
void KMeans<Real, Dim>::kpp(vector<KmPoint> &pts, vector<KmPoint> &cents){
	Real sum = 0;
	vector<Real> d;
	d.resize(pts.size());
	cents[0] = pts[rand() % pts.size()];
	vector<KmPoint> tmpCents;
	tmpCents.push_back(cents[0]);
	for(int k = 1; k < (int)cents.size(); ++k){
		sum = 0;
		for(int i = 0; i < (int)pts.size(); ++i){
			nearest(pts[i], tmpCents, d[i]);
			sum += d[i];
		}
		sum = randf(sum);
		for(int i = 0; i < (int)pts.size(); ++i){
			<strong>if((sum -= d[i]) > 0)	continue;</strong>
			cents[k] = pts[i];
			tmpCents.push_back(cents[k]);
			break;
		}
	}
	for(int i = 0; i < (int)pts.size(); ++i){
		int id = nearest(pts[i], cents, *(new Real));
		pts[i].setId(id);
	}
}

也许大家可以从这段代码中窥得一些思想,我们知道,概率事件在程序中是可以用随机数模拟的,不错,这里以

  • 6
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值