机器学习----K-means(二)

本文详细探讨了K-means聚类算法的工作原理,包括初始中心点的选择、迭代过程以及如何确定收敛条件。通过实例分析展示了K-means如何在数据挖掘中用于无监督学习,对数据进行有效划分。同时,讨论了该算法的优缺点,如对初始点敏感、可能陷入局部最优等问题,并提出了可能的改进策略。
摘要由CSDN通过智能技术生成
%matplotlib inline  
# -*- coding: utf-8 -*-
'''K均值聚类'''
from numpy import *
import numpy as np

def loadDataSet(fileName):
    '''导入数据'''
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(curLine)
        dataMat.append(fltLine)
    dataMat = np.array(dataMat,dtype=np.float64)
    return dataMat

def distEclud(vecA, vecB):
    '''距离计算公式,本处计算欧式距离'''
    return sqrt(sum(power(vecA - vecB, 2)))

def randCent(dataSet, k):
    '''构建一个包含k个随机质心的集合'''
    n = np.shape(dataSet)[1]
    centroids = mat(zeros((k,n)))
    for j in range(n):
        minJ = min(dataSet[:,j]) 
        rangeJ = float(max(dataSet[:,j]) - minJ)
        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))
    return centroids
    
def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
    '''
    K-均值聚类算法主函数
    本算法会创建k个质心,然后将每个点分配到最近的质心,再重新计算质心
    重复上述过程,知道数据点的簇分配结果不再改变为止
    '''
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))#存储每个点的簇分配结果
    centroids = createCent(dataSet, k)#初始质心
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):#循环所有数据点
            minDist = inf; minIndex = -1
          
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值