1.KMeans 算法思想:
对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都较前一次好。
2.KMeans 算法步骤:
2.1. 选择初始的k个类别中心μ1,μ2 ...μk
2.2. 根据簇中心打标签阶段,即assignment。
对于每个样本x i ,将其标记为距离类别中心最近的类别,即:
label(i) = arg min|| Xi-μj||
2.3. 根据新做的标签的各个簇update簇中心阶段。即K-Means。
将每个类别中心更新为隶属该类别的所有样本的均值: μj = 1/Cj * sum(Xi)
2.4. 重复最后两步,直到类别中心的变化小于某阈值。
中止条件: 达到迭代次数或者簇中心变化率满足阈值
3.KMeans.java 算法代码如下:
/*numClusters 簇的数目,即聚类的数目K,K是预先指定的。
* niter 迭代计算的最大轮数
* centroids 各个簇中心的初始值,如果初始值是null,则会随机产生。
*/
public void clustering(int numClusters, int niter, double [][] centroids)
{
_numClusters = numClusters;//簇的数目
if (centroids !=null)
_centroids = centroids;//簇中心
else{
// randomly selected centroids 随机产生
对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都较前一次好。
2.KMeans 算法步骤:
2.1. 选择初始的k个类别中心μ1,μ2 ...μk
2.2. 根据簇中心打标签阶段,即assignment。
对于每个样本x i ,将其标记为距离类别中心最近的类别,即:
label(i) = arg min|| Xi-μj||
2.3. 根据新做的标签的各个簇update簇中心阶段。即K-Means。
将每个类别中心更新为隶属该类别的所有样本的均值: μj = 1/Cj * sum(Xi)
2.4. 重复最后两步,直到类别中心的变化小于某阈值。
中止条件: 达到迭代次数或者簇中心变化率满足阈值
3.KMeans.java 算法代码如下:
/*numClusters 簇的数目,即聚类的数目K,K是预先指定的。
* niter 迭代计算的最大轮数
* centroids 各个簇中心的初始值,如果初始值是null,则会随机产生。
*/
public void clustering(int numClusters, int niter, double [][] centroids)
{
_numClusters = numClusters;//簇的数目
if (centroids !=null)
_centroids = centroids;//簇中心
else{
// randomly selected centroids 随机产生