模式识别与机器学习第八章聚类

最新推荐文章于 2022-11-03 11:44:59 发布

露(^_^)

最新推荐文章于 2022-11-03 11:44:59 发布

阅读量1.3k

点赞数

分类专栏：模式识别与机器学习文章标签： python

本文链接：https://blog.csdn.net/weixin_43939890/article/details/121735451

版权

模式识别与机器学习专栏收录该内容

9 篇文章 7 订阅

订阅专栏

一、监督学习与非监督学习

监督学习：给定，学习输入x与输出y之间的关系：分类、回归、排序

非监督学习：给定，寻找数据的内在结构：概率密度估计、聚类、降维/可视化

二、聚类的相关概念

1.聚类

发现数据中分组聚集的结构：根据数据中样本与样本之间的距离或相似度，将样本划分为若干组／类／簇。划分的原则：簇内样本相似、簇间样本不相似。

2.聚类的类型

基于划分的聚类（无嵌套）：将所有的样本划分到若干不重叠的子集（簇），每个样本仅属于一个子集。

层次聚类（嵌套）：树形聚类结构，在不同层次对数据集进行划分，簇之间存在嵌套。

3.簇的类型

基于中心的簇：簇内的点和其“中心”（质心/中心点）较为相近（或相似），和其他簇的“中心”较远，这样的一组样本形成的簇。
基于连续性的簇：相比其他任何簇的点，每个点都至少和所属簇的某一个点更近。
基于密度的簇：簇是由高密度的区域形成的，簇之间是一些低密度的区域。
基于概念的簇：同一个簇共享某种性质，这个性质是从整个结合推导出来的，通常不是基于中心、邻接、密度的。

4.聚类分析的“三要素”

样本间的“远近”：使用相似性/距离函数

评价聚类出来的簇的质量：利用评价函数去评估聚类质量

获得聚类的簇：表示簇、设计划分和优化算法、算法停止时间

三、距离度量函数

1.距离函数

一个距离度量函数满足：

非负性：
不可分的同一性：
对称性：
三角不等式：

2.闵可夫斯基距离

当p=2时，为欧氏距离

当p=1时，为曼哈顿距离

3.数据预处理

4.余弦相似度

夹角余弦：两变量xi，xj看做D维空间的两个向量，这两个向量间的夹角余弦可计算：

5.相关系数

6.杰卡德相似系数（Jacard）

四、聚类性能评价指标

1.聚类性能评价方法

外部评价法：聚类结果与参考结果有多相近

内部评价法：聚类的本质特点（无参考结果）

2.参考模型

数据集：

聚类结果：，其中Ck表示属于类别k的样本的集合

参考模型：

3.外部索引

4.簇内相似度

5. 簇间相似度

6.内部评价指标

7.轮廓指数

五、聚类算法

1.k均值聚类（基于划分的聚类方法、基于中心的聚类方法，数据在向量空间，对于非向量空间可以用类似核函数度量相似性）

问题：给定N个样本点进行聚类

输入：数据，簇数目为K

随机选择K个种子数据点作为K个簇的中心
repeat
for each do
计算xi与每一个簇中心的距离
将xi指配到距离最近的簇中心：
end for
用当前的簇内点，重新计算K个簇中心位置
until当前簇中心未更新

1.本质

优化目标函数：，其中为从属度，指示样本xi是否属于簇k，且（即每个样本点属于且仅属于一个类）

K-means是在目标函数上进行坐标轴下降优化，J是非凸的，所以J上应用坐标下降法不能保证收敛到全局最小值。最好将K-means运行多次，选择最好的结果。

2.K的选择——肘部法

寻找估计目标函数风险急剧下降的地方，令表示聚成K个簇的经验风险（目标函数值），寻找第一个K，使得的改进很小，这个位置称为肘部法

给定一个较小的数值，定义

3.K的选择——假设检验法

对每个K，进行假设检验：原假设H0：簇的数目为K，备择假设H1：簇的数目不为K

从K=1开始，如果拒绝H0，则继续对K=2进行假设检验，直到接受原假设，即K为第一个不被拒绝的假设。

假设检验：检验每个簇的分布是否为一个多元正态分布。如果不是，将簇分裂为2个簇。

4.初始化K-means

启发式做法：随机确定第一个类的中心，其他类的中心位置尽量远离已有类中心，Scikit-Learn中K-means实现中参数inti可设置初始值的设置方式，默认值为“k-means++”，将初始化质心彼此远离，得到比随机初始化更好的结果。

k-means：

给定：数据，簇数目为K

从随机选择一个样本点，记为；
For k=2,3,...,K
for each do
计算与已有簇中心的最短距离：
end for
以下述概率抽取样本点：
将这个随机抽样得到的样本点作为第k个初试的簇中心

5.预处理和后处理

预处理：标准化数据（e.g.缩放到单位标准差）；消除离群点

后处理：删除小的簇：可能代表离群点；分离松散的簇：簇内节点间距离之和很高；合并距离较近的簇

6.K-means的优点与局限性

优点：经典的聚类算法，简单、快速；能处理大规模数据，可扩展性好；当簇接近高斯分布时，效果较好；

局限性：当簇具有不同的尺寸、密度、非球形时，K-means会存在问题；K-means可能得不到理想的聚类结果；硬划分数据点到簇，当数据上出现一些小扰动，可能会导致一个点划分到另外的簇。

——>

使用更大数量的簇，用几个小的簇表示一个真实的簇；使用基于密度的方法。

高斯混合模型：假定簇为球形且每个簇的概率相等。

7.K-medoids

均值作为中心易受影响，换用簇的中位点做为中心。

对比：1.均值极有可能不存在，不足以代表该簇的样本，而中值是一个样本集合中真实存在的一个样本点；2.相对均值，中值对噪声（孤立点、离散点）不那么敏感；3.但是中值计算需要对簇内所有样本进行排序，计算费用高。

2.高斯混合模型和EM算法

1.高斯混合模型

概率解释：假设有K个簇，每个簇服从高斯分布，以概率随机选择一个簇k，从其分布中采样出一个样本点，如此得到观测数据

概率密度函数：

模型参数：

2.引入隐含变量

为每个样本点x关联一个K维的隐含变量，指示样本x所属的簇（one-hot向量），其对应的随机向量用Z表示。如果已知z的取值，如x属于第k簇，则

参数估计：极大似然估计

最大化对数似然函数

3.求解方法：EM算法

类似K均值聚类，采用（块）坐标轴下降，称为EM算法

E步：基于目前参数值，推断隐含变量的信息（后验概率/期望）

可看做是对从属于第k个簇的一种估计或者“解释”

M步：基于当前的期望，重新估计参数的值

4.通用的EM算法

5.EM for GMM

6.K-means与高斯混合模型（GMM）

K-means：损失函数为最小化平方距离的和；样本点硬划分到某个簇；假定样本属于每个簇的概率相等，且为球形簇。

GMM：最小化负对数似然；点到簇的从属关系为软分配；可以被用于椭圆形簇，且各个簇概率不同。

3.层次聚类

产生树形嵌套的簇，可被可视化为树状图

1.层次聚类的优点

优点：不需要提前假定簇的数目：通过选择树状图的某一层可以获得任意簇数量的聚类结构；聚类结果可能对应着有意义的分类体系。

2.层次聚类的分类

自底向上（凝聚式，更流行）：递归的合并相似度最高/距离最近的两个簇
自顶向上（分裂式）：递归地分裂最不一致的簇（例如：具有最大直径的簇）

3.定义簇间相似性

最小距离：优势：可形成非球形、非凸的簇；问题：链式效应
最大距离：对噪声更加鲁棒（不成链）；问题：趋向于拆开大的簇，偏好球形簇
平均距离：最小距离和最大距离的折中方案
中心点距离：问题：反向效应（后边合并的簇间距离可能比之前合并的簇间距离更近）
Ward's方法使用平方误差：两个簇的相似性基于两个簇融合后平方误差的增加：更少受噪声和离群点影响；倾向于球形簇；K-means的层次化版本，可以初始化K-means