k-mean算法-CSDN博客

本文链接：https://blog.csdn.net/xss125/article/details/123603141

回归

聚类属于非监督学习不知道点的标签，知道标签就是监督学习。

K-means算法

clustering中的经典算法，数据挖掘十大经典算法之一
算法接受参数k；然后将事情先输入的n个数据对象划分为k个聚类以便于使获得的聚类满足：同一聚类的对象相似度高，不同类聚相似度低。
算法思想：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代更新各类中心的值，直到出现最好的聚类结果。
算法描述：

适当的选择c个类的初始中心，
在第k次迭代中对任意一个样本，求其到c的距离，将该样本归到距离最短的中心所在的类
利用均值等方法更新该类的中心值
对于所有的c个聚类中心，如果迭代更新，数据不变，保持不变，则迭代结束，否则继续迭代。

代码

import numpy as np
#设置函数 数据集，分几类 循环几次
def kmeans(x,k,maxit):
    # 获取数据的形状
    numpoint,numDim =x.shape
    # 加一类 用来存多少行 创建一个矩阵
    dataset = np.zeros((numpoint,numDim+1))
    # 从头到倒数第二列   :,表示所有
    dataset[:,:-1] =x
    # 随机选择k个中心点。随机选择k行，所有的列数都要
    centroids = dataset[np.random.randint(numpoint,size = k),:]
    centroids[:,-1] = range(1,k+1)
    #初始化中心点
    iterations = 0
    oldCentroids =None
    while not shouldStop(oldCentroids,centroids,iterations,maxit):
        print(iterations,dataset,centroids)
        #将新的中心点赋值到旧的中心点
        oldCentroids = np.copy(centroids)
        iterations +=1
        #更新重新分类
        updateLabels(dataset,centroids)
        #获得新的中心点
        centroids = getCentroids(dataset,k)
    return dataset

def shouldStop(oldCentroids,centroids,iterations,maxit):
    #到达最大次数的时候可以退出
    if iterations >maxit:
        return True
    #如果没有达到最大次数时候，看两者的中心点是否相等
    return np.array_equal(oldCentroids,centroids)
# 更新数据
def updateLabels(dataset,centroids):
    #返回数据集的形状
    numpoint,numdim = dataset.shape
    for i in range(0,numpoint):
        #比较每一行到中心点的距离，最近的点的标签返回。
        dataset[i,-1]=getLabelFromClosestCentroid(dataset[i,:-1],centroids)
#获取每一行的点到中心点的距离
def getLabelFromClosestCentroid(datasetRaw,centroids):
    #初始化中心点的位置
    label = centroids[0,-1]
    #将第一个作为最小的距离 np.linalg.norm（）函数，传入两个向量，返回值是两个向量的距离。
    minDist = np.linalg.norm(datasetRaw-centroids[0,:-1])
    #循环每一个点和中心点的距离，
    for i in range(1,centroids.shape[0]):
        dist = np.linalg.norm(datasetRaw-centroids[i,:-1])
        if dist <minDist:
            minDist = dist
            label = centroids[i,-1]
    print(minDist)
    return label
#选择新的中心点，求平均值
def getCentroids(dataset,k):
    #初始化矩阵
    result = np.zeros((k,dataset.shape[1]))
    #dataset[:,-1]==i找出最后一列，所有等于i的值找到，求其平均值
    for i in range(1,k+1):
        oneCluster = dataset[dataset[:,-1]==i,:-1]
        # axis=0取出所有值，从中取出均值按行去均值， axis=1时的时候按列取均值。
        result[i-1,:-1] = np.mean(oneCluster,axis=0)
        #
        result[i-1,-1] = i

    return result
x1 = np.array([1,1])
x2 = np.array([2,1])
x3 = np.array([4,3])
x4 = np.array([5,4])
testx = np.vstack((x1,x2,x3,x4))

result = kmeans(testx,2,10)
print(result)

结果

在这里插入图片描述

层次聚类 hierarchical clustering

假设有N个待聚类的样本，对于层次聚类来说，步骤：

初始把每个样本归为一类，计算每两个类的样本之间的距离，也就是样本之间的相似度，
寻找各类样本之间最近的两个类，把他们归为一类
重新计算新生成的这个类和其他样本的相似度
重复前面两个步骤，直到所有样本都归为一类，结束。
整个聚类过程其实时建立了一棵树，在建立过程中，可以通过第二部分的设置阈值，当最近的两个类的距离大于这个阈值，则认为迭代可以终止。另外最关键的一步就是第三步，如何判断两个类之间的相似度的方法有：
取两类中距离最近的两个样本的距离作为这两个集合的距离，也就是说最近的两个样本的距离越小，相似度就越大，
取两类中的最远的点距离作为两个集合的距离
把两个集合两两配对，一起求平均值
取两两距离的中值