聚类笔记（上）：基本概念

最新推荐文章于 2024-06-13 09:58:25 发布

卖小孩的咖啡

最新推荐文章于 2024-06-13 09:58:25 发布

阅读量1.5k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/zhzhji440/article/details/48736043

版权

机器学习专栏收录该内容

21 篇文章 2 订阅

订阅专栏

概述

划分方法、层次、基于密度、基于网格
这里写图片描述

划分方法

Kmean算法

这里写图片描述
kmean算法不能保证收敛于与全局最优，收敛结果依赖于初始化中心的选择。实际应用常用不用的初始化中心进行多次Kmean
keam是基于最小化SSE的划分方法
缺陷：
- 需要预设簇数 $k$
- 不适合非凸形状的簇
- 不适合簇的样本数差别悬殊的情况
- 易受到异常值影响

K中心法

k中心法的典型算法是PAM：Partitioning Around Medoids
详细步骤参考：https://en.wikipedia.org/wiki/K-medoids#Step_1
算法流程：
1 在数据集中随机选择不重复的 $k$ 个样本做为簇中心: $o_{1}$ ， $o_{2}$ ，···, $o_{i}$ ,···， $o_{k}$
2 按就近原则对余下样本进行划分
3 对于簇 $i$ （其中 $i≤k$ ）：
3.1 随机选择簇中一个非中心点 $o_{random}$ ，用 $o_{random}$ 代替 $o_{i}$ 。现在备选中心点集合为 $o_{1}$ ， $o_{2}$ ，···, $o_{random}$ ,···， $o_{k}$
3.2 按就近原则对余下 $n-k$ 个样本进行划分，并计算总体损失，如果整体损失下降，用 $o_{random}$ 代替 $o_{i}$ 。
4 重复步骤3，直到达到迭代上限或损失不再明显下降

基本思想：最小化代表对象和所有对象的绝对误差L1。其代价函数为对用于簇中心代表对象的平均绝对误差

改进
PAM鲁棒性比Kmean强，但复杂度大大提高，为了适应大规模的数据集，出现改进算法CLEARA（Clustering LARge Application，大型应用聚类）。
CLEARA是对数据集进行随机抽样，然后抽样数据集上进行PAM

层次聚类

层次聚类又称系统聚类，层次聚类的一个关键点在于选择合适的簇间距离度量方式

簇间距离

层次聚类的关键是选择合适的簇间距离计算方式，设簇 $M$ 为 $簇K$ 和 $L$ 合并， $D$ 表示簇间聚类， $d$ 表示两个样本的距离
以下是几种常见的簇间距离1
最小距离
$D_{KL}=\underset{i\in{G_{K}} j\in{G_{L}} }{min}(d_{ij})$
递推一下得：
$D_{MJ}=\underset{i\in{G_{M}} j\in{G_{J}} }{min}(d_{ij})\\=min\{D_{KJ},D_{LJ} \}$
最短距离又称单链接距离，用最短距离的层次聚类又称最小生成树算法，效果如下图
这里写图片描述

最长距离
$D_{KL}=\underset{i\in{G_{K}} j\in{G_{L}} }{max}(d_{ij})$
递推一下得：
$D_{MJ}=\underset{i\in{G_{M}} j\in{G_{J}} }{max}(d_{ij})\\=max\{D_{KJ},D_{LJ} \}$

中间距离（median method）
$D^{2}_{KL}=1/2D^{2}_{KJ}+1/2D^{2}_{LJ}-1/4D^{2}_{KL}$
几何示意图如下：
这里写图片描述

类平均距离
类平均法有两种定义
定义1
$D_{KL}=\frac {1} {n_{K} n_{L}} \sum{d_{ij}}$
递推公式：
$D_{MJ}=\frac {1} {n_{M} n_{L}} \sum{d_{ij}}\\=\frac {n_{K}} { n_{M}}D_{KJ} + \frac {n_{L}} { n_{M}}D_{LJ}$

定义2
$D^{2}_{KL}=\frac {1} {n_{K} n_{L}} \sum{d^{2}_{ij}}$
递推公式
$D^{2}_{MJ}=\frac {1} {n_{M} n_{L}} \sum{d^{2}_{ij}}\\=\frac {n_{K}} { n_{M}}D^{2}_{KJ} + \frac {n_{L}} { n_{M}}D^{2}_{LJ}$

重心法
$D^{2}_{KL}= (\bar {x} _{K}- \bar {x} _{L} )^{T}(\bar {x} _{K}- \bar {x} _{L} )$
递推公式：
$D^{2}_{MJ}=\frac {n_{K}} { n_{M}}D^{2}_{KJ} + \frac {n_{L}} { n_{M}}D^{2}_{LJ}- \frac {n_{K}n_{L}} { n^{2}_{M}}D^{2}_{KL}$

重心法对异常值和离群值的鲁棒性高

Ward

$W_{K}=\sum{ ( {x} _{i}- \bar {x} _{K} )^{T}({x} _{i}- \bar {x} _{K} )}$
$W_{J}=\sum{ ( {x} _{i}- \bar {x} _{J} )^{T}({x} _{i}- \bar {x} _{J} )}$
$W_{M}=\sum{ ( {x} _{i}- \bar {x} _{M} )^{T}({x} _{i}- \bar {x} _{M} )}$
则
$D^{2}_{KL}= W_{M}-W_{K}-W_{J}\\=\frac {n_{K}n_{L}} { n_{M}} (\bar {x} _{K}- \bar {x} _{L} )^{T}(\bar {x} _{K}- \bar {x} _{L} )$

递推公式：
$D^{2}_{MJ}=\frac {n_{J}+n_{K}} {n_{J}+ n_{M}}D^{2}_{KJ} + \frac {n_{L}+n_{J}} { n_{J}+ n_{M}}D^{2}_{LJ}- \frac {n_{J}} { n_{J}+n_{M} }D^{2}_{KL}$

Ward和重心法只差一个常数，重心法和类间距离和样本数无关，而Ward的值受样本数大的影响较大，当两个簇的样本数很大时候距离会很大，则不易合并
Ward对异常值敏感

总结
最小距离：擅长处理非椭圆形状的簇；对噪声和离群点敏感
最大距离：对噪声和离群点不敏感；偏好球形簇

Ward：
Ward和重心法只差一个常数，重心法和类间距离和样本数无关，而Ward的值受样本数大的影响较大，当两个簇的样本数很大时候距离会很大，则不易合并
Ward对异常值敏感

基于密度

(略)

基于网格

(略)

聚类评估

聚类评估主要有以下三个内容
1 估计聚类趋势：评估数据分布是否有聚类的意义
2 确定簇数
3 聚类质量评估

聚类趋势

聚类趋势度量指数据集是否有聚类的价值，如果数据集是随机均匀地分布，则聚类的价值很低。

评估指标
Hopkins统计量2

确定簇数

Kmean和PAM等算法都需要设置簇数，下面有一些统计量用于选择类别数K

经验值

一个简单的经验方法是对于n个数据样本的数据集，簇数可以选择为 $\sqrt {n/2}$

对于层次聚类的簇数确定3

$R^{2}$ 统计量
$R^{2}=1-P_{G}/T$
其中 $P_{G}$ 为簇数G的总类内离差平方和， $T$ 为所有变量的总离差平方和。 $R^{2}$ 越大越好。

半偏相关
把类 $C_{K}$ 和 $C_{L}$ 合并为 $C_{M}$ 时，半偏相关系数为 $R^{2}=B_{KL}/T$

其中 $B_{KL}$ 为合并类导致的内类离差平方和增量。系数越大说明两个类不应该合并

伪F统计量
$F=\frac { (T-P_{G})/(G-1) } {P_{G}/(n-G)}$
选择伪F统计量较大，而类数较小的聚类结果

伪t统计量
$t^{2}=\frac { B_{KL} } { (W_{K}-W_{L})/(N_{K}+N_{L} -2 ) }$
此统计量用于评价类K和L合并的效果，如果值大这说明不应该合并

聚类簇评估4:

非监督评估方法

1 划分聚类评估
在数据挖掘导论中，对于划分方法的评估主要针对基于原型和图两种簇类型进行评估。

基于凝聚和分离的度量
对于原型和图两种不同的簇类型，仅仅是在计算凝聚度和分离度上存在差异，单整体思想是一致的
簇总体有效性度量公式如下
这里写图片描述
其中validity函数可以是凝聚度或分离度，也可以是两种的组合

轮廓系数5
轮廓系数是综合了凝聚度和分离度的综合指标，该指标不仅能用于度量簇的有效性，还能度量每个样本在聚类结果中的有效性

基于近邻度矩阵
理想的聚类效果同一个簇中的，样本间的相似度为1，而不同簇间的相似度为0。根据这个原则和聚类结果构建一个理想相似度矩阵，该矩阵中通一个簇的一对点相似度为1。然后计算理想和实际相似度矩阵之间的相关系数（注意值计算矩阵的下三角部分）

2 层次聚类评估6
层次聚类簇评估通过共性分类矩阵进行评估，思想和划分聚类基于近邻度的评估方法有点相似，都是计算两个矩阵的下三角的部分的相关系数。
共性分类距离矩阵的计算公式参考《数据挖掘导论，P338》

有监督评估方法

有监督的评估又称外在方法，和有监督的训练方法的评估是十分相似的

参考

统计建模与R软件 ↩
数据挖掘导论 ↩
P330聚类分析(http://stat.smmu.edu.cn/field/sas07.htm) ↩
数据挖掘导论 P340,数据挖掘：概念与技术 P316 ↩
数据挖掘导论 P336 ↩
数据挖掘导论 P338 ↩

卖小孩的咖啡

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
聚类笔记（上）：基本概念

目录目录概述划分方法Kmean算法K中心法层次聚类簇间距离基于密度基于网格聚类评估聚类趋势确定簇数经验值对于层次聚类的簇数确定3聚类簇评估4非监督评估方法有监督评估方法参考概述划分方法、层次、基于密度、基于网格划分方法Kmean算法 kmean算法不能保证收敛于与全局最优，收敛结果依赖于初始化中心的选择。实际应用常用不用的初始化中心进行多次Kmean k
复制链接

扫一扫

专栏目录