k-mean算法

回归

聚类属于非监督学习 不知道点的标签,知道标签就是监督学习。

K-means算法

clustering中的经典算法,数据挖掘十大经典算法之一
算法接受参数k;然后将事情先输入的n个数据对象划分为k个聚类以便于使获得的聚类满足:同一聚类的对象相似度高,不同类聚相似度低。
算法思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代更新各类中心的值,直到出现最好的聚类结果。
算法描述:

  • 适当的选择c个类的初始中心,
  • 在第k次迭代中对任意一个样本,求其到c的距离,将该样本归到距离最短的中心所在的类
  • 利用均值等方法更新该类的中心值
  • 对于所有的c个聚类中心,如果迭代更新,数据不变,保持不变,则迭代结束,否则继续迭代。
代码
import numpy as np
#设置函数 数据集,分几类 循环几次
def kmeans(x,k,maxit):
    # 获取数据的形状
    numpoint,numDim =x.shape
    # 加一类 用来存多少行 创建一个矩阵
    dataset = np.zeros((numpoint,numDim+1))
    # 从头到倒数第二列   :,表示所有
    dataset[:,:-1] =x
    # 随机选择k个中心点。随机选择k行,所有的列数都要
    centroids = dataset[np.random.randint(numpoint,size = k),:]
    centroids[:,-1] = range(1,k+1)
    #初始化中心点
    iterations = 0
    oldCentroids =None
    while not shouldStop(oldCentroids,centroids,iterations,maxit):
        print(iterations,dataset,centroids)
        #将新的中心点赋值到旧的中心点
        oldCentroids = np.copy(centroids)
        iterations +=1
        #更新重新分类
        updateLabels(dataset,centroids)
        #获得新的中心点
        centroids = getCentroids(dataset,k)
    return dataset

def shouldStop(oldCentroids,centroids,iterations,maxit):
    #到达最大次数的时候可以退出
    if iterations >maxit:
        return True
    #如果没有达到最大次数时候,看两者的中心点是否相等
    return np.array_equal(oldCentroids,centroids)
# 更新数据
def updateLabels(dataset,centroids):
    #返回数据集的形状
    numpoint,numdim = dataset.shape
    for i in range(0,numpoint):
        #比较每一行到中心点的距离,最近的点的标签返回。
        dataset[i,-1]=getLabelFromClosestCentroid(dataset[i,:-1],centroids)
#获取每一行的点到中心点的距离
def getLabelFromClosestCentroid(datasetRaw,centroids):
    #初始化中心点的位置
    label = centroids[0,-1]
    #将第一个作为最小的距离 np.linalg.norm()函数,传入两个向量,返回值是两个向量的距离。
    minDist = np.linalg.norm(datasetRaw-centroids[0,:-1])
    #循环每一个点和中心点的距离,
    for i in range(1,centroids.shape[0]):
        dist = np.linalg.norm(datasetRaw-centroids[i,:-1])
        if dist <minDist:
            minDist = dist
            label = centroids[i,-1]
    print(minDist)
    return label
#选择新的中心点,求平均值
def getCentroids(dataset,k):
    #初始化矩阵
    result = np.zeros((k,dataset.shape[1]))
    #dataset[:,-1]==i找出最后一列,所有等于i的值找到,求其平均值
    for i in range(1,k+1):
        oneCluster = dataset[dataset[:,-1]==i,:-1]
        # axis=0取出所有值,从中取出均值按行去均值, axis=1时的时候按列取均值。
        result[i-1,:-1] = np.mean(oneCluster,axis=0)
        #
        result[i-1,-1] = i

    return result
x1 = np.array([1,1])
x2 = np.array([2,1])
x3 = np.array([4,3])
x4 = np.array([5,4])
testx = np.vstack((x1,x2,x3,x4))

result = kmeans(testx,2,10)
print(result)




结果

在这里插入图片描述

层次聚类 hierarchical clustering

假设有N个待聚类的样本,对于层次聚类来说,步骤:

  • 初始把每个样本归为一类,计算每两个类的样本之间的距离,也就是样本之间的相似度,

  • 寻找各类样本之间最近的两个类,把他们归为一类

  • 重新计算新生成的这个类和其他样本的相似度

  • 重复前面两个步骤,直到所有样本都归为一类,结束。
    整个聚类过程其实时建立了一棵树,在建立过程中,可以通过第二部分的设置阈值,当最近的两个类的距离大于这个阈值,则认为迭代可以终止。另外最关键的一步就是第三步,如何判断两个类之间的相似度的方法有:

  • 取两类中距离最近的两个样本的距离作为这两个集合的距离,也就是说最近的两个样本的距离越小,相似度就越大,

  • 取两类中的最远的点距离作为两个集合的距离

  • 把两个集合两两配对,一起求平均值

  • 取两两距离的中值

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值