【聚类算法】K-means算法

大雨淅淅

于 2024-09-16 23:30:45 发布

阅读量741

点赞数 12

分类专栏：大数据文章标签：聚类 kmeans 数据挖掘 python 大数据算法

本文链接：https://blog.csdn.net/xiaoyingxixi1989/article/details/142308831

版权

大数据专栏收录该内容

37 篇文章 0 订阅

订阅专栏

3.3 K-means算法python实现

四、K-means算法的应用

五、K-means算法发展趋势

一、K-means算法概述

K-means算法是一种常用的聚类分析方法，其目的是将n个数据点划分为k个簇，使得每个数据点属于离它最近的均值（即簇中心）对应的簇，以此来最小化簇内的平方误差之和。算法的基本步骤如下：

1. 初始化：随机选择k个数据点作为初始的簇中心。

2. 分配步骤：将每个数据点分配到最近的簇中心，形成k个簇。

3. 更新步骤：重新计算每个簇的中心，即簇内所有点的均值。

4. 重复步骤2和步骤3，直到簇中心不再发生变化或达到预设的迭代次数，算法收敛。

K-means算法简单、高效，但需要预先指定簇的数量k，并且对初始值敏感，可能会陷入局部最优解。此外，算法假设簇是凸形的，对于非球形簇的划分效果不佳。

二、K-means算法优缺点和改进

2.1 K-means算法优点

1. 简单易懂：K-means算法原理直观，易于理解和实现。

2. 计算效率高：对于大数据集，K-means算法的计算效率相对较高，适合处理大规模数据。

3. 扩展性好：算法可以扩展到多维空间，适用于高维数据的聚类。

4. 广泛应用：在市场细分、社交网络分析、图像分割等领域有广泛应用。

2.2 K-means算法缺点

1. 对初始值敏感：K-means算法对初始聚类中心的选择非常敏感，不同的初始值可能导致不同的聚类结果。

2. 需要预先指定簇的数量：算法需要预先设定簇的数量k，而实际数据中簇的数量往往是未知的。

3. 对异常值敏感：K-means算法对噪声和孤立点敏感，这些异常值可能会对聚类中心产生较大影响。

4. 只适用于凸形簇：K-means算法假设簇是凸形的，对于非凸形簇的聚类效果不佳。

2.3 K-means算法改进

1. 选择更好的初始值：如K-means++算法，通过更智能的方式选择初始聚类中心，以提高聚类质量。

2. 自动确定簇的数量：如使用轮廓系数、肘部法则等方法来自动确定最佳的簇数量。

3. 引入异常值处理机制：通过数据预处理或修改算法内部机制来减少异常值的影响。

4. 使用核技巧：将K-means算法扩展到非线性可分的数据上，如核K-means算法。

5. 结合其他算法：与其他聚类算法结合，如层次聚类、DBSCAN等，以弥补K-means算法的不足。

三、K-means算法代码实现

3.1 K-means算法C语言实现

以下是一个简单的K-means算法的C语言实现示例。请注意，这个实现没有包含任何错误检查或内存管理，因此不适合生产环境。它的目的是为了展示算法的基本思想。

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
 
#define K 3 // 假设我们要分成3个簇
#define D 2 // 数据点的维度 (例如，2D点)
#define MAX_ITERATIONS 100
 
typedef struct {
    double x[D];
} Point;
 
typedef struct {
    Point center;
    int size;
} Cluster;
 
void initRandomPoints(Point *points, int n) {
    srand(time(0));
    for (int i = 0; i < n; ++i) {
        for (int j = 0; j < D; ++j) {
            points[i].x[j] = rand() / (double)RAND_MAX;
        }
    }
}
 
void initClusters(Cluster *clusters, Point *points, int k) {
    for (int i = 0; i < k; ++i) {
        clusters[i].size = 0;
        for (int j = 0; j < D; ++j) {
            clusters[i].center.x[j] = points[i * D + j].x[j];
        }
    }
}
 
int closestCluster(Point p, Cluster *clusters, int k) {
    double minDist = 1e9;
    int closest = 0;
    for (int i = 0; i < k; ++i) {
        double dist = 0;
        for (int j = 0; j < D; ++j) {
            dist += (p.x[j] - clusters[i].center.x[j]) * (p.x[j] - clusters[i].center.x[j]);
        }
        if (dist < minDist) {
            minDist = dist;
            closest = i;
        }
    }
    return closest;
}
 
void assignPointsToClusters(Point *points, Cluster *clusters, int n) {
    for (int i = 0; i < n; ++i) {
        int clusterIndex = closestCluster(points[i], clusters, K);
        clusters[clusterIndex].size++;
    }
}
 
void recalculateClusterCenters(Point *points, Cluster *clusters, int n) {
    for (int i = 0; i < K; ++i) {
        if (clusters[i].size > 0) {
            for (int j = 0; j < D; ++j) {
                clusters[i].center.x[j] = 0;
                for (int p = 0; p < clusters[i].size; ++p) {
                    clusters[i].center.x[j] += points[i * clusters[i].size + p].x[j];
                }
                clusters[i].center.x[j] /= clusters[i].size;
            }
        }
    }
}
 
void kMeans(Point *points, Cluster *clusters, int n) {
    int iterations = 0;
    do {
        iterations++;
        assignPointsToClusters(points, clusters, n);
        recalculateClusterCenters(points, clusters, n);
    } while (iterations < MAX_ITERATIONS);
}
 
int main() {
    const int n = 100; // 假设我们有100个数据点
    Point points[n];
    Cluster clusters[K];
 
    initRandomPoints(points, n);
    initClusters(clusters, points, K);
 
    kMeans(points, clusters, n);
 
    printf("Cluster centers:\n");
    for (int i = 0; i < K; ++i) {
        printf("Cluster %d: (", i);

3.2 K-means算法JAVA实现

import java.util.ArrayList;
import java.util.List;
 
public class KMeans {
 
    public static class Cluster {
        public double centerX;
        public double centerY;
        public List<Point> points;
 
        public Cluster(double centerX, double centerY) {
            this.centerX = centerX;
            this.centerY = centerY;
            this.points = new ArrayList<>();
        }
    }
 
    public static class Point {
        public double x;
        public double y;
 
        public Point(double x, double y) {
            this.x = x;
            this.y = y;
        }
    }
 
    public static List<Cluster> kMeans(List<Point> points, int k, int maxIterations) {
        List<Cluster> clusters = new ArrayList<>();
        for (int i = 0; i < k; i++) {
            clusters.add(new Cluster(points.get(i).x, points.get(i).y));
        }
 
        for (int iteration = 0; iteration < maxIterations; iteration++) {
            for (Point point : points) {
                Cluster closestCluster = null;
                double minDistance = Double.MAX_VALUE;
                for (Cluster cluster : clusters) {
                    double distance = Math.sqrt(Math.pow(point.x - cluster.centerX, 2) + Math.pow(point.y - cluster.centerY, 2));
                    if (distance < minDistance) {
                        minDistance = distance;
                        closestCluster = cluster;
                    }
                }
                if (closestCluster != null) {
                    closestCluster.points.add(point);
                }
            }
 
            for (Cluster cluster : clusters) {
                double sumX = 0;
                double sumY = 0;
                for (Point point : cluster.points) {
                    sumX += point.x;
                    sumY += point.y;
                }
                int size = cluster.points.size();
                cluster.centerX = sumX / size;
                cluster.centerY = sumY / size;
                cluster.points.clear();
            }
 
            if (iteration > 0 && clustersHaveConverged(clusters, iteration)) {
                break;
            }
        }
 
        return clusters;
    }
 
    private static boolean clustersHaveConverged(List<Cluster> clusters, int iteration) {
        for (int i = 0; i < clusters.size(); i++) {
            Cluster cluster1 = clusters.get(i);
            for (int j = i + 1; j < clusters.size(); j++) {
                Cluster cluster2 = clusters.get(j);
                if (Math.sqrt(Math.pow(cluster1.centerX - cluster2.centerX, 2) + Math.pow(cluster1.centerY - cluster2.centerY, 2)) > 0.01) {
                    return false;
                }
            }
        }
        return true;
    }
 
    public static void main(String[] args) {
        List<Point> points = new ArrayList<>();
        points.add(new Point(1, 1));
        points.add(new Point(2, 2));
        points.add(new Point(3, 3));
        points.add(new Point(10, 10));
        points.add(new Point(11, 11));
        points.add(new Point(40, 40));
        points.add(new Point(100, 100));
 
        List<Cluster> clusters = kMeans(points, 2, 100);
        for (Cluster cluster : clusters) {
            System.out.println("Cluster center: (" + cluster.centerX + ", " + cluster.centerY + ")");
        }
    }
}

一个简单的K-means算法的Java实现示例。请注意，这个实现没有进行错误处理和多线程优化，适合入门学习和教学使用。

3.3 K-means算法python实现

K-means算法是一种常用的聚类算法，它将数据集合分割成K个独立的聚类，同一个聚类中的数据点之间具有较高的相似度。以下是使用Python实现K-means算法的示例代码：

import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
 
# 生成示例数据
def generate_data(n_samples, centers, cluster_std):
    random_state = 1
    centers = [centers] * 2
    cluster_std = [cluster_std] * 2
    X = np.zeros((n_samples, 2))
    for i in range(2):
        X[i * n_samples // 2:(i + 1) * n_samples // 2] = np.random.normal(
            centers[i], cluster_std[i], size=(n_samples // 2, 2)
        )
    return X
 
# K-means算法实现
def k_means(X, n_clusters, max_iter=300, init='k-means++', n_init=10, verbose=False):
    kmeans = KMeans(n_clusters=n_clusters, max_iter=max_iter, init=init, n_init=n_init, random_state=1)
    kmeans.fit(X)
    if verbose:
        print(f"Inertia: {kmeans.inertia_}")
        print(f"Centers: {kmeans.cluster_centers_}")
    return kmeans.labels_, kmeans.cluster_centers_
 
# 评估聚类效果
def evaluate_cluster(X, labels, centers):
    silhouette_avg = silhouette_score(X, labels)
    print(f"Silhouette Coefficient: {silhouette_avg}")
 
# 使用示例
n_samples = 300
n_clusters = 2
centers = [1, 1]
cluster_std = [0.5, 0.5]
X = generate_data(n_samples, centers, cluster_std)
labels, centers = k_means(X, n_clusters, verbose=True)
evaluate_cluster(X, labels, centers)

这段代码首先定义了生成数据集的函数generate_data，然后定义了k_means函数来实现K-means聚类算法，并输出聚类中心和聚类结果。最后，使用evaluate_cluster函数评估聚类效果，输出 silhouette系数，这是评估聚类质量的一个常用指标。