机器学习之聚类算法

最新推荐文章于 2024-05-15 09:47:32 发布

echo婷

最新推荐文章于 2024-05-15 09:47:32 发布

阅读量1k

点赞数

文章标签：聚类算法

本文链接：https://blog.csdn.net/zt2494653702/article/details/109149495

版权

一聚类算法简介

1.1 定义

一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中，使用不同的聚类准则，产生的聚类结果不同。
无监督学习：输入数据是由输入特征值组成，没有目标值

1.2 聚类算法分类

粗聚类
细聚类

1.3 聚类算法和分类算法区别

聚类算法是无监督的学习算法，而分类算法属于监督的学习算法

二聚类算法API

sklearn.cluster.KMeans(n_clusters=8)

参数：
n_clusters：开始的聚类中心数，即产生的质心（centroids）数。默认为8

方法:
estimator.fit(x)
estimator.predict(x)
estimator.fit_predict(x) 先fit训练再预测

三聚类算法流程和优化

3.1 算法流程

随机设置K个特征空间内的点作为初始的聚类中心
对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程

注意：
当每次迭代结果不变时，认为算法收敛，聚类完成，K-Means一定会停下，不可能陷入一直选质心的过程

3.2 优化算法

（1）1.4 K-means优缺点

优点：
1.原理简单（靠近中心点），实现容易
2.聚类效果中上（依赖K的选择）

缺点：
1.对离群点，噪声敏感（中心点易偏移）
2.很难发现大小差别很大的簇及进行增量计算
3.结果不一定是全局最优，只能保证局部最优（与K的个数及初值选取有关）

（2）Canopy算法配合初始聚类

Canopy粗聚类配合kmeans

（3） K-means++

目的：让选择的质心尽可能的分散

（4）二分k-means

实现流程：
1.所有点作为一个簇
2.将该簇一分为二
3.选择能最大限度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。
4.以此进行下去，直到簇的数目等于用户给定的数目k为止

注意：
误差平方和能够衡量聚类性能，该值越小表示数据点越接近于他们的质心，聚类效果就越好

（5）k-medoids（k-中心聚类算法）

与k-means选取中心点的方法不同
K-medoids中，将从当前cluster 中选取到其他所有（当前cluster中的）点的距离之和最小的点作为中心点

（6）总结

在这里插入图片描述

四聚类算法模型评估

4.1 误差平方和(SSE）

在这里插入图片描述
注意：如果质心的初始值选择不好,SSE只会达到一个不怎么好的局部最优解

4.2 “肘”方法（ n_clusters值确定）

这个平方和变化过程中，会出现一个拐点也即“肘”点，下降率突然变缓时即认为是最佳的n_clusters值

4.3 轮廓系数法（Silhouette Coefficient）

目的：内部距离最小化，外部距离最大化
在这里插入图片描述

4.4 CH系数（Calinski-Harabasz Index）

类别内部数据的协方差越小越好，类别之间的协方差越大越好

矩阵的迹：tr，矩阵的对角线求和，因为矩阵的对角线可以表示一个物体的相似性

目的：用尽量少的类别聚类尽量多的样本，同时获得较好的聚类效果

公式：
在这里插入图片描述

五特征工程——特征降维

降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程

5.1 特征选择

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
（1）方差选择法：低方差特征过滤
（2）相关系数
Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
（1）决策树:信息熵、信息增益
（2）正则化：L1、L2
（3）深度学习：卷积等

5.2 方差选择法

特征方差小：某个特征大多样本的值比较相近
特征方差大：某个特征很多样本的值都有差别
删除低方差的一些特征

API：

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)

方法：
Variance.fit_transform(X)

返回值：
训练集差异低于threshold的特征将被删除

from sklearn.feature_selection import VarianceThreshold
transfer = VarianceThreshold(threshold=100)
transfer = transfer.fit_transform(x)

5.2 皮尔逊相关系数

公式：
在这里插入图片描述
（1）当r>0时，表示两变量正相关，r<0时，两变量为负相关
（2）当|r|=1时，表示两变量为完全相关，当r=0时，表示两变量间无相关关系
（3）当0<|r|<1时，表示两变量存在一定程度的相关。且|r|越接近1，两变量间线性关系越密切；|r|越接近于0，表示两变量的线性相关越弱
（4）等级划分：|r|<0.4为低度相关；0.4≤|r|<0.7为显著性相关；0.7≤|r|<1为高度线性相关

API：
from scipy.stats import pearsonr
pearsonr(x, y)

from scipy.stats import pearsonr
pearsonr(x1,x2)
# out:(0.9941983762371884, 4.922089955456964e-09)

5.3 斯皮尔曼相关系数(Rank IC)

反映变量之间相关关系密切程度的统计指标

公式：
在这里插入图片描述
斯皮尔曼相关系数与皮尔逊相关系数大小性质一样，取值 [-1, 1]之间，但斯皮尔曼相关系数的计算更简单，应用更加广泛

API：
from scipy.stats import spearmanr
spearmanr(x, y)

from scipy.stats import spearmanr
spearmanr(x1,x2)
# out:SpearmanrResult(correlation=0.9999999999999999, pvalue=6.646897422032013e-64)

5.4 主成分分析（PCA）

定义：高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量
作用：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息

API：

sklearn.decomposition.PCA(n_components=None)

参数：
n_components:
小数：表示保留百分之多少的信息
整数：减少到多少特征

方法：
PCA.fit_transform(X)

返回值：
转换后指定维度的array

from sklearn.decomposition import PCA
transfer = PCA(n_components=0.9)
data1 = transfer.fit_transform(data)
transfer = PCA(n_components=3)     # 保留3个特征
data2 = transfer.fit_transform(data)

echo婷

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之聚类算法

一聚类算法简介1.1 定义一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中，使用不同的聚类准则，产生的聚类结果不同。无监督学习：输入数据是由输入特征值组成，没有目标值1.2 聚类算法分类粗聚类细聚类1.3 聚类算法和分类算法区别聚类算法是无监督的学习算法，而分类算法属于监督的学习算法二聚类算法APIsklearn.cluster.KMeans(n_clusters=8)参数：n_clusters：开始的聚类中心数，即产生的质心（centroids）数。默认为8方
复制链接

扫一扫