K-means点云聚类算法(python实现)

原理:

  1. 目标:将样本集合划分为 K 个互不相交的子集,每个子集代表一个聚类。
  2. 初始化:随机选择 K 个样本作为初始聚类中心。
  3. 迭代优化:重复以下步骤,直到收敛:
    • 将每个样本分配到最近的聚类中心所在的类别中。
    • 计算每个聚类中心的均值,作为新的聚类中心。
  4. 收敛条件:当聚类中心不再发生变化,或者变化很小,算法收敛。

数学公式:

  1. 样本表示:假设有 m 个样本,每个样本有 n 个特征,用 x ^{^{(i)}} 表示第 i 个样本, x ^{^{(i)}} ∈R^{n}
  2. 聚类中心表示:假设有 K 个聚类中心,用x ^{^{(i)}} 表示第 k 个聚类中心,μ_{k}R^{n}
  3. 样本到聚类中心的距离:通常使用欧氏距离或其他距离度量。样本 x ^{^{(i)}} 到聚类中心μ_{k} 的距离表示为 ∣∣x ^{^{(i)}}−μ_{k}∣∣^{2}
  4. 样本分配:将样本 x ^{^{(i)}} 分配给与之最近的聚类中心 x ^{^{(i)}}​,即选择使得 ∣∣x ^{^{(i)}}−μ𝑘∣∣^{2}最小的聚类中心。
  5. 聚类中心更新:每个聚类的中心更新为该聚类中所有样本的均值,即 μ𝑘=\frac{1}{C_{k}}∑𝑖∈C_{k}x ^{^{(i)}},其中 C_{k}​ 是属于第 k 个聚类的样本集合。

优化目标:

K-Means 的优化目标是最小化样本到所属聚类中心的距离之和(称为误差平方和,SSE): 𝐽(c^{(1)},…,c^{(m)},𝜇_{1},…,𝜇_{k})=\sum_{i=1}^{m}∣∣x ^{^{(i)}}−𝜇c^{(i)}∣∣^{2}其中:

  • c^{(i)} 表示样本 x ^{^{(i)}} 所属的聚类中心的索引。
  • 𝜇c^{(i)}​ 表示样本 x ^{^{(i)}} 所属的聚类中心。

K-Means 算法通过迭代优化这个目标函数,不断更新聚类中心,直到收敛到局部最优解。

实现代码:

# 文件功能: 实现 K-Means 算法
import random
from scipy import  spatial
import matplotlib.pyplot as plt
import numpy as np

class K_Means(object):
    # k是分组数;tolerance‘中心点误差’;max_iter是迭代次数
    def __init__(self, n_clusters=2, tolerance=0.0001, max_iter=300):
        self.k_ = n_clusters
        self.tolerance_ = tolerance
        self.max_iter_ = max_iter

    def fit(self, datas):
        # step 1.选择k个点作为聚类的中心
        self.centers_ = datas[random.sample(range(datas.shape[0]),self.k_)]
        old_centers = np.copy(self.centers_)
        leaf_size = 1
        k = 1
        for i in range(self.max_iter_):
            # step 2.求出查询点到中心的最近距离
            labels = [[]for i in range(self.k_)]
            root = spatial.KDTree(self.centers_,leafsize=leaf_size)
            print("Kmeans iterator",i)
            for i in range(datas.shape[0]):
                _,query_index = root.query(datas[i],k) #返回距离哪个中心点最近
                labels[query_index].append(datas[i])
            for i in range(self.k_):
                points = np.array(labels[i])
                self.centers_[i] = points.mean(axis=0)
            if np.sum(np.abs(self.centers_ - old_centers)) < self.tolerance_ * self.k_:
                break
            old_centers = np.copy(self.centers_)
        self.fitted = True


    def predict(self, p_datas):
        result = []
        if not self.fitted:
            print("Unfitter.")
            return result
        for point in p_datas:
            diff = np.linalg.norm(self.centers_ - point,axis=1)
            result.append(np.argmin(diff))
        return result

if __name__ == '__main__':
    x = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]])
    k_means = K_Means(n_clusters=2)
    k_means.fit(x)

    cat = k_means.predict(x)
    color = np.array(['r', 'g'])
    cats = np.array(cat)
    print(cats.shape)
    plt.figure(figsize=(10, 10))
    plt.title(u"scatter clustter after kmeans")
    plt.scatter(x[:, 0], x[:, 1], c=color[cats])
    plt.show()
    print(cat)

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: k-means是一种常用的聚类算法Python中有多种库可以实现k-means聚类,比如scikit-learn、numpy等。 下面是一个使用scikit-learn库实现k-means聚类的示例代码: ```python from sklearn.cluster import KMeans import numpy as np # 生成数据 X = np.random.rand(100, 2) # 创建KMeans模型 kmeans = KMeans(n_clusters=3) # 进行聚类 kmeans.fit(X) # 获取聚类结果 labels = kmeans.labels_ # 获取聚类中心点 centers = kmeans.cluster_centers_ ``` 在上面的代码中,首先使用numpy库生成100个二维随机数据点。然后,创建了一个KMeans模型,并指定聚类数为3。最后,使用fit方法对数据进行聚类,获取聚类结果和聚类中心点。 需要注意的是,k-means算法依赖于初始随机点的选取,因此有可能会得到不同的聚类结果。为了避免这种情况,可以使用多次随机初始化来求解最优聚类结果。 ### 回答2: k-means聚类算法是一种基于距离度量的无监督学习算法,用于将一组数据点分成k个不同的类别。Python提供了许多库和工具来实现k-means聚类算法,其中最常用的是scikit-learn库。 首先,需要导入所需的库: ``` from sklearn.cluster import KMeans import numpy as np ``` 然后,准备要进行聚类的数据。将数据存储在一个numpy数组中,每行代表一个数据点,每列代表一个特征。假设我们有一个数据集X,其中包含100个数据点和2个特征: ``` X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]]) ``` 接下来,我们可以使用KMeans类来实现k-means聚类算法: ``` kmeans = KMeans(n_clusters=2) # 创建KMeans对象,设置聚类的个数为2 kmeans.fit(X) # 对数据进行聚类 ``` 通过fit()方法,k-means算法会将数据分成2个不同的类别。我们还可以通过以下代码获得每个数据点的标签: ``` labels = kmeans.labels_ ``` 最后,我们可以通过以下代码获得每个类别的质心: ``` centroids = kmeans.cluster_centers_ ``` 这是k-means聚类算法Python中的简单实现。可以根据实际情况调整n_clusters参数来确定聚类的个数,并通过labels_和cluster_centers_属性获取聚类的结果。需要注意的是,k-means聚类算法对初始质心的选择非常敏感,因此可以使用不同的初始化方法来改善聚类结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值