K-means++是对K-means初始化的优化。k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响,因此需要选择合适的k个质心。如果仅仅是完全随机的选择,有可能导致算法收敛很慢。优化策略如下:a) 从输入的数据点集合中随机选择一个点作为第一个聚类中心μ1; b) 对于数据集中的每一个点xi,计算它与已选择的聚类中心中最近聚类中心的距离; c) 选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大; d) 重复b和c直到选择出k个聚类质心 e) 利用这k个质心来作为初始化质心去运行标准的K-Means算法