聚类分析

最新推荐文章于 2024-06-28 14:32:10 发布

weixin_44457930

最新推荐文章于 2024-06-28 14:32:10 发布

阅读量400

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44457930/article/details/115756417

版权

机器学习专栏收录该内容

14 篇文章 3 订阅

订阅专栏

聚类分析

假设拿到一堆数据，要对这堆数据进行分类，分几类，分类依据，都没有给出，那么分类该如何进行？

聚类就是针对大量数据或者样品，根据数据本身的特性研究分类方法，并遵循这个分类方法对数据进行合理的分类，最终将相似数据分为一组，也就是“同类相同、异类相异”。

比如把人和其他动物放在一起比较，你可以很轻松地找到一些判断特征，比如肢体、嘴巴、耳朵、皮毛等等，根据判断指标之间的差距大小划分出某一类为人，某一类为狗，某一类为鱼等等，这就是聚类。

（1）K-means

聚类分析的算法有很多，这里介绍K均值聚类算法，即K-means
假如要对下图中的点进行分类
在这里插入图片描述
这里我们指定将其分为三类

步骤：
1、随机设置K个特征空间内的点作为初始的聚类中心
2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
4、如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程

其实K-means的步骤，就是不断的更新每个类别的中心点（中心点未必是样本点），对于各个样本点，则计算自己与各中心点的距离，离哪个中心点最近自己就是哪个类别，然后取各个类别的平均值作为新的中心点，就是这样不断迭代。

（2）K-means的API

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)

n_clusters:开始的聚类中心数量，即k值
init:初始化方法，默认为’k-means ++’

在fit之后，KMeans对象有个特性labels_，为默认标记的类型，可以和真实值比较（不是值比较）

（3）聚类结果评估

分类有准确率，回归有损失函数，聚类有没有评价模型的指标？
当然有，使用轮廓系数
在这里插入图片描述
m为样本数量，对于每个点 i 为已聚类数据中的样本，a_i 为第 i 个样本到本身簇的距离平均值，b_i 为第 i 个样本到其它族群的所有样本的平均距离，最终计算出所有的样本点的轮廓系数平均值，即为轮廓系数

在这里插入图片描述
如果sc小于0，说明类内的平均距离大于类外，聚类效果不好
如果sc大于0，说明类内的平均距离小于类外，聚类效果好
轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优，一般很难大于0.7

API
sklearn.metrics.silhouette_score(X, labels)
计算所有样本的平均轮廓系数
X：特征值
labels：被聚类标记的目标值

更多关于API的介绍，可以看这篇博客：https://blog.csdn.net/Monk_donot_know/article/details/86681938

（4）k-means示例

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from matplotlib import pyplot as plt
import numpy as np

X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])

# random_state 相当于随机数种子random.seed()
# 初始化质心生成器生成最初的质心，这个生成器根据一个随机数产生质心
# random_state 则相当于这个随机数的种子
kmeans = KMeans(n_clusters=2, random_state=0)
kmeans.fit(X)

# 输出原始数据的聚类后的标签值
print(kmeans.labels_)

# 根据已经建模好的数据，对新的数据进行预测
result_prd = kmeans.predict([[0, 0], [4, 4]])
print(result_prd) # 输出预测标签

# 输出两个类别质心的位置。
print(kmeans.cluster_centers_)

# 计算所有样本的平均轮廓系数
sc = silhouette_score(X, kmeans.labels_)
print(sc)

plt.figure(figsize=(5, 5))
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_)
# c表示颜色，可以为数字，这里使用分类的数字标签
plt.show()

输出

[0 0 0 1 1 1]
[0 1]
[[1. 2.]
 [4. 2.]]
0.2871407974806454

在这里插入图片描述

（5）K-means总结

特点分析：
采用迭代式算法，直观易懂并且非常实用

缺点：容易收敛到局部最优解(多次聚类)
需要预先设定簇的数量(k-means++解决)

weixin_44457930

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录