k-means++是机器学习领域一种基本的聚类算法,是k-means算法的增强版,与k-means算法的唯一区别就在于初始点的选择上。众所周知, 通常情况下,k-means选择初始点都是以一种随机的方式选择的,选择的初始点的好坏,对聚类的效果以及算法的迭代次数上都有很明显的影响。最坏的情况如有两个初始点选在了同一个聚类中,那么最终有可能导致原本属于一个聚类的点被分成了两类。
针对上述k-means的问题,k-means++算法对初始点的选择采用一些策略,从而大大改善了算法的有效性。k-means++算法是这样的:
假设:
a:将数据聚成k类;
b:x表示数据集中的任一数据点;
c:Di表示第i个数据点与距离其最近的聚类中心之间的距离平方。
1、随机生成数据集(可以是任意维的,为了演示方便,我只采用了二维);
2、在数据集中随机选择一个数据点,作为我们的第一个聚类中心C1;
3、以概率Di/sum(Di)选择第i个数据点作为下一个聚类中心;
4、重复3,直到已经找到k个聚类中心{C1,C2,...,Ck};
5、执行k-means算法。
值得注意的是,可能有人会对第三步以概率Di/sum(Di)选点不是很明白,或者说这到底是怎么样的一种选法,应该在程序中如何体现,我先贴出源码中一部分:
template<typename Real, int Dim>
void KMeans<Real, Dim>::kpp(vector<KmPoint> &pts, vector<KmPoint> ¢s){
Real sum = 0;
vector<Real> d;
d.resize(pts.size());
cents[0] = pts[rand() % pts.size()];
vector<KmPoint> tmpCents;
tmpCents.push_back(cents[0]);
for(int k = 1; k < (int)cents.size(); ++k){
sum = 0;
for(int i = 0; i < (int)pts.size(); ++i){
nearest(pts[i], tmpCents, d[i]);
sum += d[i];
}
sum = randf(sum);
for(int i = 0; i < (int)pts.size(); ++i){
<strong>if((sum -= d[i]) > 0) continue;</strong>
cents[k] = pts[i];
tmpCents.push_back(cents[k]);
break;
}
}
for(int i = 0; i < (int)pts.size(); ++i){
int id = nearest(pts[i], cents, *(new Real));
pts[i].setId(id);
}
}
也许大家可以从这段代码中窥得一些思想,我们知道,概率事件在程序中是可以用随机数模拟的,不错,这里以