聚类分析 Kmeans算法 KNN模型 Meanshift算法

最新推荐文章于 2024-05-16 10:33:10 发布

nickdlk

最新推荐文章于 2024-05-16 10:33:10 发布

阅读量712

点赞数 1

分类专栏：机器学习 python 文章标签： python 机器学习深度学习

本文链接：https://blog.csdn.net/weixin_43924621/article/details/107550324

版权

python 同时被 2 个专栏收录

39 篇文章 4 订阅

订阅专栏

机器学习

14 篇文章 13 订阅

订阅专栏

Kmeans 算法

#加载数据并预览
import pandas as pd
import numpy as np
data = pd.read_csv('data.csv')
data.head()

在这里插入图片描述

#定义X和y
X = data.drop(['labels'],axis=1)
y = data.loc[:,'labels']
y.head()#预览
#查看类别
pd.value_counts(y)

在这里插入图片描述

#画图 无标签的
%matplotlib inline
from matplotlib import pyplot as plt
fig1 = plt.figure()
plt.scatter(X.loc[:,'V1'],X.loc[:,'V2'])
plt.title("un-labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.show()

在这里插入图片描述

#画图 有标签的 
fig2 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])

plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.show()

在这里插入图片描述

print(X.shape,y.shape)

在这里插入图片描述

#建立模型
from sklearn.cluster import KMeans
KM = KMeans(n_clusters=3,random_state=0)#指定归为3类,确保初始化一致
KM.fit(X)
#得到中心点的坐标
centers = KM.cluster_centers_

#画出中心点
fig3 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])

plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))

plt.scatter(centers[:,0],centers[:,1])
plt.show()

在这里插入图片描述

#预测
#V1 = 80 ,V2 = 60
y_predict_test = KM.predict([[80,60]])
print(y_predict_test)
#训练结果 准确率
y_predict = KM.predict(X)
print(pd.value_counts(y_predict),pd.value_counts(y))#预测结果的分类数据

from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y,y_predict)
print(accuracy)
# 分类与原本的相反 所以准确率很低

在这里插入图片描述

#画出预测结果检查
fig4 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y_predict==0],X.loc[:,'V2'][y_predict==0])
label1 = plt.scatter(X.loc[:,'V1'][y_predict==1],X.loc[:,'V2'][y_predict==1])
label2 = plt.scatter(X.loc[:,'V1'][y_predict==2],X.loc[:,'V2'][y_predict==2])

plt.title("predict data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

fig5 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])
plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

plt.show()
#蓝色和绿色互换位置了(因为是无监督式学习,没有预先设置标签,需要矫正)

在这里插入图片描述

#矫正 把label对应回y的
y_corrected = []
for i in y_predict:
    if i==0:
        y_corrected.append(2)
    elif i==1:
        y_corrected.append(1)
    else:
        y_corrected.append(0)
print(pd.value_counts(y_corrected))

#再看看矫正后的准确率
print(accuracy_score(y,y_corrected))

#列表转换
y_corrected = np.array(y_corrected)

在这里插入图片描述

#画出修正后的
fig6 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y_corrected==0],X.loc[:,'V2'][y_corrected==0])
label1 = plt.scatter(X.loc[:,'V1'][y_corrected==1],X.loc[:,'V2'][y_corrected==1])
label2 = plt.scatter(X.loc[:,'V1'][y_corrected==2],X.loc[:,'V2'][y_corrected==2])

plt.title("corected data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

fig7 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])
plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

plt.show()

在这里插入图片描述

KNN 模型

#预测
from sklearn.neighbors import KNeighborsClassifier
KNN = KNeighborsClassifier(n_neighbors=3)
KNN.fit(X,y)
#预测
#V1 = 80 ,V2 = 60
y_predict_knn_test = KNN.predict([[80,60]])
print(y_predict_knn_test)
y_predict_knn = KNN.predict(X)
print('knn accuracy',accuracy_score(y,y_predict_knn))
#结果是1 全部正确...
print(pd.value_counts(y),pd.value_counts(y_predict_knn))
#数量一致

在这里插入图片描述

#画出KNN的
fig8 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y_predict_knn==0],X.loc[:,'V2'][y_predict_knn==0])
label1 = plt.scatter(X.loc[:,'V1'][y_predict_knn==1],X.loc[:,'V2'][y_predict_knn==1])
label2 = plt.scatter(X.loc[:,'V1'][y_predict_knn==2],X.loc[:,'V2'][y_predict_knn==2])

plt.title("KNN data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

fig9 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])
plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

plt.show()

在这里插入图片描述

Meanshift算法

from sklearn.cluster import MeanShift,estimate_bandwidth
#设定区域
bw = estimate_bandwidth(X,n_samples=500)
print(bw)
#训练
ms = MeanShift(bandwidth=bw)
ms.fit(X)
#预测  结果
y_predict_ms = ms.predict(X)
print(pd.value_counts(y_predict_ms),
      pd.value_counts(y)
      )
#没有给出类数目 自动分出了3类

在这里插入图片描述

#如果数据不对原本的标签 需要对结果修正
y_corrected_ms = []
for i in y_predict_ms:
    if i==0:
        y_corrected_ms.append(2)
    elif i==1:
        y_corrected_ms.append(1)
    else:
        y_corrected_ms.append(0)
print(pd.value_counts(y_corrected_ms),
      pd.value_counts(y))

#再看看矫正后的准确率
print(accuracy_score(y,y_corrected_ms))

在这里插入图片描述

#列表转换
y_corrected_ms = np.array(y_corrected_ms)

#可视化
fig10 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y_corrected_ms==0],X.loc[:,'V2'][y_corrected_ms==0])
label1 = plt.scatter(X.loc[:,'V1'][y_corrected_ms==1],X.loc[:,'V2'][y_corrected_ms==1])
label2 = plt.scatter(X.loc[:,'V1'][y_corrected_ms==2],X.loc[:,'V2'][y_corrected_ms==2])

plt.title("ms data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

fig11 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])
plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

plt.show()

在这里插入图片描述

nickdlk

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
3
评论
聚类分析 Kmeans算法 KNN模型 Meanshift算法

Kmeans 算法#加载数据并预览import pandas as pdimport numpy as npdata = pd.read_csv('data.csv')data.head()#定义X和yX = data.drop(['labels'],axis=1)y = data.loc[:,'labels']y.head()#预览#查看类别pd.value_counts(y) #画图无标签的%matplotlib inlinefrom matplotlib impo
复制链接

扫一扫