python 聚类均值聚类层次聚类

最新推荐文章于 2022-06-25 15:54:53 发布

发现文化fu

最新推荐文章于 2022-06-25 15:54:53 发布

阅读量2.2k

点赞数

分类专栏： python 数学建模聚类算法文章标签：聚类 python 均值算法

本文链接：https://blog.csdn.net/weixin_51020254/article/details/122691695

版权

python 同时被 3 个专栏收录

37 篇文章 2 订阅

订阅专栏

数学建模

7 篇文章 0 订阅

订阅专栏

聚类算法

1 篇文章 0 订阅

订阅专栏

K均值聚类

数据

|国别森林覆盖率（%）林木蓄积量（亿立方米）草原面积（万公顷）
中国 12.5 93.5 31908
美国 30.4 202 23754
日本 67.2 24.8 58
德国 28.4 14 599
英国 8.6 1.5 1147
法国 26.7 16 1288
意大利 21.1 3.6 514
加拿大 32.7 192.8 2385
澳大利亚 13.9 10.5 45190
前苏联 41.1 841.5 37370
捷克 35.8 8.9 168
波兰 27.8 11.4 405
匈牙利 17.4 2.5 129
南斯拉夫 36.3 11.4 640
罗马尼亚 26.7 11.3 447
保加利亚 34.7 2.5 200
印度 20.5 29 1200
印尼 84 33.7 1200
尼日利亚 16.1 0.8 2090
墨西哥 24.6 32.6 7450
巴西 67.6 238 15900

 import  numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from sklearn import preprocessing as pp
import matplotlib.pyplot as plt
#  防止乱码
plt.rcParams["font.sans-serif"] = ["SimHei"]  # 设置字体
plt.rcParams["axes.unicode_minus"] = False

# 读取文件
data = pd.read_excel("data.xlsx")
a = data.iloc[:, 1:]
a.columns = ['covery_persentage', 'storage', 'square']
a = a.values  # 转化为nparray
print(a)
## 簇内利差和拐点法
# 确定最佳簇 cluster     即 在不同的k值下计算利差和  通过可视化找到拐点
TSSE = []
k = 10
for i in range(1, k+1):
    SSE = []
    md = KMeans(n_clusters=i)
    md.fit(a)
    labels = md.labels_
    centers = md.cluster_centers_
    for label in set(labels)    :
        SSE.append(np.sum((a[labels == label, :] - centers[label, :])**2))  # 离差平方和运输
    TSSE.append(np.sum(SSE))
plt.plot(range(1, k+1), TSSE, )
plt.show()  # 根据图像 取簇为4


md =KMeans(n_clusters=4)
md.fit(a) # 求解模型
labels = md.labels_ +1   # 提取聚类标签 [2 3 1 1 1 1 1 1 4 2 1 1 1 1 1 1 1 1 1 1 3]
centers = md.cluster_centers_  # 提取聚类中心，每一行是一个聚类中心
print(labels, '\n', centers)
## 层次聚类
```python
import pandas as pd
from sklearn import preprocessing as pp
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"] = ["SimHei"]  # 设置字体
plt.rcParams["axes.unicode_minus"] = False

data = pd.read_excel("data.xlsx")
a = data.iloc[:, 1:].values
# print(data.iloc[:, 1:])
b = pp.minmax_scale(a)  # 数据规格化 x-min/ max-min  每一列的min'  max
d = sch.distance.pdist(b) # 求对象之间两两距离向量
dd = sch.distance.squareform(d) # 转化为矩阵格式
z = sch.linkage(d) # 生成聚类树
# print(z)
s = [str(i+1) for i in range(21)]
plt.rc('font', size=16)
sch.dendrogram(z, labels= data.iloc[:, 0].values)
plt.show()

![在这里插入图片描述](https://img-blog.csdnimg.cn/84fdbac2fab149308bdbc47f4668d51d.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5Y-R546w5paH5YyWZnU=,size_19,color_FFFFFF,t_70,g_se,x_16#pic_center)

在这里插入图片描述

1规格化变换每个指标的最大值最小值数据减去min除以极差
2. 标准化变换每个数据减去该行的均值除以该行的标准差

样本间亲疏程度的测距计算
绝对值距离样本对应的bij相减再相加取绝对值 Minkowski
欧氏距离平方相加开根号
切比雪夫距离
马氏距离 mahalanobis

相关系数，由标准化矩阵计算的相关系数
夹角余弦和皮尔逊相关系数

scipy.cluster.hierarchy模块的层次聚类
sch.distance.pdist(A, 生成两两间的距离
Z=sch.linkage( 包含聚类树信息的（n-1）/4 矩阵 # 生成聚类树第一二列两两连接生成一个新类的对象
第三列为两两对象之间的连接距离第四列为当前列中初始对象的个数
T = fcluster（Z, t)利用z，给定阀值创建聚类
H = dendrogram（z， p）根据数据矩阵z画出聚类树状图， p为节点个数