机器学习中聚类的一些知识

在"无监督学习" (unsupervised learning) 中,训练样本的标记信息是未 知的?目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为 进一步的数据分析提供基础.此类学习任务中研究最多、应用最广的是"聚 类" (clustering).

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集 称为一个"簇" (cluster). 通过这样的划分,每个簇可能对应于一些潜在的概 念(类别) ,如"浅色瓜" "深色瓜","有籽瓜" "无籽瓜",甚至"本地瓜" "外地瓜"等;需说明的是,这些概念对聚类算法而言事先是未知的,聚类过程 仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名.

聚类性能度量亦称聚类"有效性指标" (validity index). 与监督学习中的性能度量作用相似,对聚类结果,我们需通过某种性能度量来评估其好坏;另一 方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化 目标,从而更好地得副符合要求的聚类结果.,聚类结果的"簇内相似 度" (intra-cluster similarity) 高且"簇间相似度" (inter-cluster similarity) 低.

聚类性能度量大致有两类. 一类是将聚类结果与某个"参考模 型" (reference model) 进行比较,称为"外部指标" (external dex); 另一 类是直接考察聚类结果而不利用任何参考模型,称为"内部指标" (internal index).

Jaccard 系数(J accard Coefficient ,简称 JC)性能度量的结果值均在 [0 1] 区间,值越大越好.

 

基于式(9.8) ,,-, (9.11) 可导出下面这些常用的聚类性能度量内部指标: 

给定样本 Xi = (Xi1; 2;... ;Xin) 与的 (Xjl; Xj2; . • . ; Xjn) 最常用的是 "闵可夫斯基距离" (Minkowski distance) 

 在讨论距离计算时,属性上是否定义了"序"关 系更为重要,例如定义域为 {1 3} 的离散属性与连续属性的性质更接近一些, 能直接在属性值上计算距离 "1" "2" 比较接近、与 "3" 比较远,这样的 属性称为"有序属性" (ordinal attribute); 而定义域为{飞机,火车,轮船}这样 的离散属性则不能直接在属性值上计算距离,称为"无序属性" (non-ordinal attribute) .显然,闵可夫斯基距离可用于有序属性.

对无序属性可采用 VDM (Value Difference Metric)

于是,将闵可夫斯基距离和 VDM 结合即可处理混合属性 需注意的是,通常我 们是 基于某种形式的距离来定义 "相 似度度 量" (similarity easure) ,距离越大,相似度越小然而,用于相似度度量的 距离未必 定要满足距离度 的所有基本性质,尤其是直递性

原型聚类亦称"基于原型的聚类" (prototype~ based clustering)) 此类算法 假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用.通常情形下, 算法先对原型进行初始化,然后对原型进行迭代更新求解.采用不同的原型表 示、不同的求解方式将产生不同的算法 

给定样本集 = {Xl) 的,... ,xm} , "k 均值" (k-means )算法针对聚类所 得簇划分 = {C1 , C2 ,..., Ck} 最小化平方误差

最小化式(9.24) 并不容易,找到它的最优解需考察样本集 所有可能的簇 划分,这是一个 NP 难问题 下面以表 9.1 的西瓜数据集 4.0 为例来演示 均值算法的学习过程.为方 便叙述,我们将编号为 的样本称为酌,这是一个包含"密度"与"含糖率" 两个属性值的二维向量.

与k均值、 LVQ 用原型向量来刻画聚类结构不同,高斯混合(Mixture-oι Gaussian) 聚类采用概率模型来表达聚类原型. 

密度聚类亦称"基于密度的聚类" (density-based clustering) ,此类算法假 设聚类结构能通过样本分布的紧密程度确定.通常情形下,密度聚类算法从样 本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇 以获得最终的聚类结果.DBSCAN 是一种著君的密度粟类算法? 

于是, DBSCAN 算法先任选数据集中的一个核心对象为"种子" (seed), 再由此出发确定相应的聚类簇,算法描述如圈 9.9 所示.在第 ", 行中,算法 先根据给定的邻域参数 (E MinPts) 找出所有核心对象;然后在第 10", 24 行中, 以任一模心对象为出发点,找出由其密度可达的样本生成聚类簇?直到所有核 心对象均被诗问过为止.

层次聚类(h archical clust ri 试图 不同层次对数据集进行划分 。两个粟类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数.这里的关 键是如何计算聚类簇之间的距离.实际上 每个簇是一个样本集合,因此,只需 采用关于集合的某种距离即可.例如,给定聚类簇 与巧,可通过下面的式子 来计算距离:显然,最小距离由两个簇的最近样本决定,最大距离由两个簇的最远样本决定 而平均距离则由两个簇的所有样本共同决定.当聚类簇距离由 dmin> max

在树状图的特定层次上进行分割,则可得到相应的簇划分结果.例如,以图 9.12 中所示虚线分割树状图 将得到包含 个聚类簇的结果: 

将分割层逐步提升? 则可得到聚类簇逐渐减少的聚类结果 例如图 9. 13 示出 了从图 9.12 产生 个聚类簇的划分结果. 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值