机器学习中聚类的一些知识

最新推荐文章于 2024-02-03 13:19:39 发布

Zou验钞

最新推荐文章于 2024-02-03 13:19:39 发布

阅读量299

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/zycnice/article/details/118757620

版权

在"无监督学习" (unsupervised learning) 中，训练样本的标记信息是未知的?目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础.此类学习任务中研究最多、应用最广的是"聚类" (clustering).

聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个"簇" (cluster). 通过这样的划分，每个簇可能对应于一些潜在的概念(类别) ，如"浅色瓜" "深色瓜"，"有籽瓜" "无籽瓜"，甚至"本地瓜" "外地瓜"等;需说明的是，这些概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名.

聚类性能度量亦称聚类"有效性指标" (validity index). 与监督学习中的性能度量作用相似，对聚类结果，我们需通过某种性能度量来评估其好坏;另一方面，若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得副符合要求的聚类结果.，聚类结果的"簇内相似度" (intra-cluster similarity) 高且"簇间相似度" (inter-cluster similarity) 低.

聚类性能度量大致有两类. 一类是将聚类结果与某个"参考模型" (reference model) 进行比较，称为"外部指标" (external dex); 另一类是直接考察聚类结果而不利用任何参考模型，称为"内部指标" (internal index).

Jaccard 系数(J accard Coefficient ，简称 JC)性能度量的结果值均在 [0 1] 区间，值越大越好.

基于式(9.8) ，，-， (9.11) 可导出下面这些常用的聚类性能度量内部指标:

给定样本 Xi = (Xi1; 2;... ;Xin) 与的 (Xjl; Xj2; . • . ; Xjn) 最常用的是 "闵可夫斯基距离" (Minkowski distance)

在讨论距离计算时，属性上是否定义了"序"关系更为重要，例如定义域为 {1 3} 的离散属性与连续属性的性质更接近一些，能直接在属性值上计算距离 "1" "2" 比较接近、与 "3" 比较远，这样的属性称为"有序属性" (ordinal attribute); 而定义域为{飞机，火车，轮船}这样的离散属性则不能直接在属性值上计算距离，称为"无序属性" (non-ordinal attribute) .显然，闵可夫斯基距离可用于有序属性.

对无序属性可采用 VDM (Value Difference Metric)

于是，将闵可夫斯基距离和 VDM 结合即可处理混合属性需注意的是，通常我们是基于某种形式的距离来定义 "相似度度量" (similarity easure) ，距离越大，相似度越小然而，用于相似度度量的距离未必定要满足距离度的所有基本性质，尤其是直递性

原型聚类亦称"基于原型的聚类" (prototype~ based clustering)) 此类算法假设聚类结构能通过一组原型刻画，在现实聚类任务中极为常用.通常情形下，算法先对原型进行初始化，然后对原型进行迭代更新求解.采用不同的原型表示、不同的求解方式将产生不同的算法

给定样本集 = {Xl) 的，... ,xm} , "k 均值" (k-means )算法针对聚类所得簇划分 = {C1 , C2 ,..., Ck} 最小化平方误差

最小化式(9.24) 并不容易，找到它的最优解需考察样本集所有可能的簇划分，这是一个 NP 难问题下面以表 9.1 的西瓜数据集 4.0 为例来演示均值算法的学习过程.为方便叙述，我们将编号为的样本称为酌，这是一个包含"密度"与"含糖率" 两个属性值的二维向量.

与k均值、 LVQ 用原型向量来刻画聚类结构不同，高斯混合(Mixture-oι Gaussian) 聚类采用概率模型来表达聚类原型.

密度聚类亦称"基于密度的聚类" (density-based clustering) ，此类算法假设聚类结构能通过样本分布的紧密程度确定.通常情形下，密度聚类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果.DBSCAN 是一种著君的密度粟类算法?

于是， DBSCAN 算法先任选数据集中的一个核心对象为"种子" (seed), 再由此出发确定相应的聚类簇，算法描述如圈 9.9 所示.在第 "，行中，算法先根据给定的邻域参数 (E MinPts) 找出所有核心对象;然后在第 10"， 24 行中，以任一模心对象为出发点，找出由其密度可达的样本生成聚类簇?直到所有核心对象均被诗问过为止.

层次聚类(h archical clust ri 试图不同层次对数据集进行划分。两个粟类簇进行合并，该过程不断重复，直至达到预设的聚类簇个数.这里的关键是如何计算聚类簇之间的距离.实际上每个簇是一个样本集合，因此，只需采用关于集合的某种距离即可.例如，给定聚类簇与巧，可通过下面的式子来计算距离:显然，最小距离由两个簇的最近样本决定，最大距离由两个簇的最远样本决定而平均距离则由两个簇的所有样本共同决定.当聚类簇距离由 dmin> max