Python金融数据挖掘第11章第2节 K均值聚类代码

最新推荐文章于 2024-08-14 23:17:46 发布

勇敢驴驴

最新推荐文章于 2024-08-14 23:17:46 发布

阅读量938

点赞数

分类专栏： Python金融数据挖掘

本文链接：https://blog.csdn.net/xllzuibangla/article/details/124934791

版权

聚类数据挖掘 python

1、库

import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

2、随机生成聚类中心点

def initCentroids(dataSet,k):
    numSamples,dim=dataSet.shape
    centroids=np.zeros((k,dim))
    for i in range(k):
        index=int(np.random.uniform(0,numSamples))
        centroids[i,:]=dataSet[index,:]
    return centroids

3、欧氏距离

def euclDistance(vector1,vector2):
    return np.sqrt(np.sum(np.power(vector2-vector1,2)))

4、K-均值聚类

def kmeans(dataSet,k):
    numSamples=dataSet.shape[0]
    clusterAssment=np.mat(np.zeros((numSamples,2)))
    clusterChanged=True
    centroids=initCentroids(dataSet,k)
    while clusterChanged:
        clusterChanged=False
        for i in range(numSamples):
            minDist=100000.0