机器学习进阶第二节第七课

最新推荐文章于 2024-07-16 13:15:48 发布

我是小白呀

最新推荐文章于 2024-07-16 13:15:48 发布

阅读量1.5k

点赞数 1

本文链接：https://blog.csdn.net/weixin_46274168/article/details/111312369

版权

Pyhton 机器学习进阶同时被 2 个专栏收录

32 篇文章 16 订阅

订阅专栏

Python 机器学习进阶第二节

11 篇文章 0 订阅

订阅专栏

非监督学习之 k-means

概述
sklearn.cluster.KMeans
方法
属性

概述

K-means 通常被称为劳埃德算法, 这在数据聚类中是最经典的, 也是相对容易理解的模型. 算法执行的过程分为 4 个阶段.

首先, 随机设 K 个特征空间内的点作为初始的聚类中心
然后, 对于根据每个数据的特征向量, 从 K 个聚类中心寻找聚类新分配的类簇, 通过取分配给每个先前质心的所有样本的平均值来创建新的质心. 重新对 K 个聚类中心做计算
接着, 在所有的数据都被标记过聚类中心之后, 根据这些数据新分配的类簇, 通过取分配给每个先前质心的所有样本的平均值来创建新的质心重, 新对 K 个聚类中心做计算
最后, 计算旧和新质心之间的差异, 如果所有的数据点从属的聚类中心与上一次的分配的类簇没有变化, 那么迭代就可以停止, 否则回到步骤 2 继续循环

K 均值等于具有小的全对称协方差矩阵的期望最大化算法.

sklearn.cluster.KMeans

class sklearn.cluster.KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm='auto')
  """
  :param n_clusters:要形成的聚类数以及生成的质心数

  :param init:初始化方法，默认为'k-means ++',以智能方式选择k-均值聚类的初始聚类中心，以加速收敛;random,从初始质心数据中随机选择k个观察值（行

  :param n_init：int，默认值：10使用不同质心种子运行k-means算法的时间。最终结果将是n_init连续运行在惯性方面的最佳输出。

  :param n_jobs：int用于计算的作业数量。这可以通过并行计算每个运行的n_init。如果-1使用所有CPU。如果给出1，则不使用任何并行计算代码，这对调试很有用。对于-1以下的n_jobs，使用（n_cpus + 1 + n_jobs）。因此，对于n_jobs = -2，所有CPU都使用一个。

  :param random_state:随机数种子，默认为全局numpy随机数生成器
  """

from sklearn.cluster import KMeans
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0],[4, 2], [4, 4], [4, 0]])
kmeans = KMeans(n_clusters=2, random_state=0)

方法

fit(x,y=None): 使用 X 作为训练数据拟合模型.

kmeans.fit(X)

predict(X) :预测新的数据所在的类别.

kmeans.predict([[0, 0], [4, 4]])
array([0, 1], dtype=int32)

属性

clustercenters: 集群中心的点坐标.

kmeans.cluster_centers_
array([[ 1.,  2.],
       [ 4.,  2.]])

labels_: 每个点的类别.

kmeans.labels_

我是小白呀

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

机器学习进阶 第二节 第七课

非监督学习之 k-means

概述

sklearn.cluster.KMeans

方法

属性

机器学习进阶第二节第七课