机器学习之聚类算法

一 聚类算法简介

1.1 定义

一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中,使用不同的聚类准则,产生的聚类结果不同。
无监督学习:输入数据是由输入特征值组成,没有目标值

1.2 聚类算法分类

粗聚类
细聚类

1.3 聚类算法和分类算法区别

聚类算法是无监督的学习算法,而分类算法属于监督的学习算法

二 聚类算法API

sklearn.cluster.KMeans(n_clusters=8)

参数
n_clusters:开始的聚类中心数,即产生的质心(centroids)数。默认为8

方法:
estimator.fit(x)
estimator.predict(x)
estimator.fit_predict(x) 先fit训练再预测

三 聚类算法流程和优化

3.1 算法流程

  1. 随机设置K个特征空间内的点作为初始的聚类中心
  2. 对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别
  3. 接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)
  4. 如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程

注意
当每次迭代结果不变时,认为算法收敛,聚类完成,K-Means一定会停下,不可能陷入一直选质心的过程

3.2 优化算法

(1)1.4 K-means优缺点

优点:
​ 1.原理简单(靠近中心点),实现容易
​ 2.聚类效果中上(依赖K的选择)

缺点:
​ 1.对离群点,噪声敏感 (中心点易偏移)
​ 2.很难发现大小差别很大的簇及进行增量计算
​ 3.结果不一定是全局最优,只能保证局部最优(与K的个数及初值选取有关)

(2)Canopy算法配合初始聚类

Canopy粗聚类配合kmeans

(3) K-means++

目的:让选择的质心尽可能的分散

(4) 二分k-means

实现流程
1.所有点作为一个簇
2.将该簇一分为二
3.选择能最大限度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇。
4.以此进行下去,直到簇的数目等于用户给定的数目k为止

注意
误差平方和能够衡量聚类性能,该值越小表示数据点越接近于他们的质心,聚类效果就越好

(5)k-medoids(k-中心聚类算法)

与k-means选取中心点的方法不同
K-medoids中,将从当前cluster 中选取到其他所有(当前cluster中的)点的距离之和最小的点作为中心点

(6)总结

在这里插入图片描述

四 聚类算法模型评估

4.1 误差平方和(SSE)

在这里插入图片描述
注意:如果质心的初始值选择不好,SSE只会达到一个不怎么好的局部最优解

4.2 “肘”方法( n_clusters值确定)

这个平方和变化过程中,会出现一个拐点也即“肘”点,下降率突然变缓时即认为是最佳的n_clusters值

4.3 轮廓系数法(Silhouette Coefficient)

目的:内部距离最小化,外部距离最大化
在这里插入图片描述

4.4 CH系数(Calinski-Harabasz Index)

类别内部数据的协方差越小越好,类别之间的协方差越大越好

矩阵的迹:tr,矩阵的对角线求和,因为矩阵的对角线可以表示一个物体的相似性

目的:用尽量少的类别聚类尽量多的样本,同时获得较好的聚类效果

公式
在这里插入图片描述

五 特征工程——特征降维

降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

5.1 特征选择

Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联
(1)方差选择法:低方差特征过滤
(2)相关系数
Embedded (嵌入式):算法自动选择特征(特征与目标值之间的关联)
(1)决策树:信息熵、信息增益
(2)正则化:L1、L2
(3)深度学习:卷积等

5.2 方差选择法

特征方差小:某个特征大多样本的值比较相近
特征方差大:某个特征很多样本的值都有差别
删除低方差的一些特征

API

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)

方法:
Variance.fit_transform(X)

返回值:
训练集差异低于threshold的特征将被删除

from sklearn.feature_selection import VarianceThreshold
transfer = VarianceThreshold(threshold=100)
transfer = transfer.fit_transform(x)

5.2 皮尔逊相关系数

公式:
在这里插入图片描述
(1)当r>0时,表示两变量正相关,r<0时,两变量为负相关
(2)当|r|=1时,表示两变量为完全相关,当r=0时,表示两变量间无相关关系
(3)当0<|r|<1时,表示两变量存在一定程度的相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱
(4)等级划分:|r|<0.4为低度相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关

API
from scipy.stats import pearsonr
pearsonr(x, y)

from scipy.stats import pearsonr
pearsonr(x1,x2)
# out:(0.9941983762371884, 4.922089955456964e-09)

5.3 斯皮尔曼相关系数(Rank IC)

反映变量之间相关关系密切程度的统计指标

公式:
在这里插入图片描述
斯皮尔曼相关系数与皮尔逊相关系数大小性质一样,取值 [-1, 1]之间,但斯皮尔曼相关系数的计算更简单,应用更加广泛

API
from scipy.stats import spearmanr
spearmanr(x, y)

from scipy.stats import spearmanr
spearmanr(x1,x2)
# out:SpearmanrResult(correlation=0.9999999999999999, pvalue=6.646897422032013e-64)

5.4 主成分分析(PCA)

定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量
作用:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息

API:

sklearn.decomposition.PCA(n_components=None)

参数:
n_components:
小数:表示保留百分之多少的信息
整数:减少到多少特征

方法:
PCA.fit_transform(X)

返回值:
转换后指定维度的array

from sklearn.decomposition import PCA
transfer = PCA(n_components=0.9)
data1 = transfer.fit_transform(data)
transfer = PCA(n_components=3)     # 保留3个特征
data2 = transfer.fit_transform(data)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值