《机器学习》第九章 聚类 总结

聚类任务
在无监督学习中,训练样本的标记信息未知,目标是通过对无标记训练样本的学习来揭示数据内在的性质和规律,为进一步的数据分析提供基础。此类学习任务中研究最多、应用最广的是聚类(clustering)。要完成聚类任务,必须解决两个问题:性能度量和距离计算

聚类:试图将数据集中的样本划分为若干个不相交的子集,每个子集称为一个簇。通过这样的划分,每个簇可能对应一个潜在的未知概念,但这个概念的语义需要使用者来把握和命名

性能度量
聚类性能度量亦称聚类有效性指标(validity index),若明确了最终要使用的性能度量,则可直接将其作为聚类过程的优化目标。一般而言,我们希望聚类结果的簇内相似度(intra-cluster similarity)高且簇间相似度(inter-cluster similarity)低。

外部指标(external index):将聚类结果与某个参考模型(reference model)进行比较

内部指标(internal index):直接考察聚类结果而不利用任何参考模型

距离计算
一般用函数dist()表示,距离度量(distance measure)需要满足三个基本性质:非负性、同一性、对称性和直递性

闵可夫斯基距离(Minkowski distance):公式(9.18),平常最常用的欧式距离即闵可夫斯基距离p=2的情况,当p=1时,闵可夫斯基距离称为哈曼距离

有序属性(ordinal attribute):对于离散属性,一个属性中的各个值是否能当作距离来看待,例如{1,2,3}

无序属性(non-ordinal attribute):不能在属性上直接计算距离的属性,例如{飞机,汽车,轮船},显然闵可夫斯基距离不能在无序属性上直接使用,一般采用VDM来解决这个问题

VDM(Value Difference Metric):对无序属性进行处理的方法,将VDM和闵可夫斯基距离结合起来还能处理混合属性

相似度度量(similarity measure):通常根据距离来定义相似度度量,距离越大相似度越小。然而用于相似度度量的距离不一定要满足距离度量的所有基本性质,尤其是直递性,不满足直递性的距离称为非度量距离(non-metric distance)

原型聚类
亦称基于原型的聚类(prototype-based clustering),此类算法假设聚类结构能通过一组原型刻画。通常先对原型进行初始化,然后对原型进行迭代更新求解。采用不同的原型表示和不同的求解方式,将产生不同的算法

k均值算法(k-means):针对聚类所得簇划分,目的是最小化平方误差的算法。然而直接最小化簇划分的平方误差是一个NP难问题,因此k均值算法采用了贪心策略,通过迭代优划来近似求解式(9.24)

学习向量量化(Learning Vector Quantization, LVQ):试图找到一组原型向量来刻画聚类结构,但LVQ不同在于假设样本带有类别标记,并于学习过程利用样本的这些监督信息来辅助聚类。LVQ算法的核心是公式(9.25),即若原型向量与样本的类别标记相同,则令原型向量以一定的学习率朝样本的方向靠拢,反之远离样本

高斯混合聚类(Mixture-of-Gaussian):与k均值和LVQ采用原型向量来刻画聚类结构不同,高斯混合聚类采用概率模型来表达聚类原型。模型参数求解采用极大似然估计和EM算法进行求解,每步迭代中先根据当前参数计算每个样本属于每个高斯成分的后验概率,再更新模型参数

密度聚类(density-based clustering)
假设聚类结构能通过样本分布的紧密程度确定,密度聚类算法从样本密度的角度考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果

DBSCAN(Density-Based S-patial Clustering of Applications with Noise)算法:基于一组邻域(neighborhood)参数来刻画样本分布的紧密程度。DBSCAN算法先任选数据集中的一个核心对象作为种子(seed),再由此出发确定相应的聚类簇,知道所有核心对象均被访问过未知。

层次聚类(hierarchical clustering)
层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集划分可采用自底向上或者自顶向下的分拆策略。

AGENS(AGglomerative NESting)算法:一种采用自底向上聚合策略的层次聚类算法。它首先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,不断重复该过程,知道达到预设的聚类簇个数。该算法的关键在于如何计算聚类簇之间的距离。实际上,聚类簇是一个样本集合,因此只要采用某种关于集合的距离即可,例如公式(9.41)~(9.43)。若设置k的初值为1,即令AGNES算法一直执行到所有样本都出现在同意簇中,此时可得到树状图(dendrogram),在树状图的特定层次上进行划分,可得到相应的划分结果

总结
聚类是机器学习”新算法“出现最多、最快的领域,这是由于聚类不存在客观的判定标准,因此对于给定数据集,总能找到某个角度采用某种以往算法未覆盖的标准从而设计出新算法。上述列举的聚类方法和性能度量还有许多其他方案,使用什么方案或者如何改进这些算法,应根据具体研究进行确定

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值