《统计学习方法》--聚类方法

《统计学习方法》第十四章–聚类方法

聚类方法主要是依据某种相似度判别标准,将给定的未标注的数据集依据相似度自动的将其划分为若干个类或簇中。聚类方法的目的是通过算法的聚类,对未标注数据集进行一定程度的划分,以便于发现潜在的关系,但是聚类方法的效果严重依赖于所选的相似度判别标准。

相似度判别标准

相似度的判别主要是通过一定的标准来说明所给的实例之间的相似程度,常见的有基于距离的标准,基于相关系数的标准;针对字符串或文本还有基于编辑距离,基于词向量等的标准。针对要解决的问题选择合适的相似度判别标准是聚类方法最基础也是最核心的步骤。

闵可夫斯基距离

定义:给定样本集合 X X X X X X m m m维实数向量空间 R m R^m Rm中点的集合,其中 x i , x j ∈ X , x j = ( x j 1 , x j 2 , . . . , x j m ) , x i = ( x i 1 , x i 2 , . . . , x i m ) x_i,x_j \in X,x_j=(x_{j1},x_{j2},...,x_{jm}),x_i=(x_{i1},x_{i2},...,x_{im}) xi,xjX,xj=(xj1,xj2,...,xjm),xi=(xi1,xi2,...,xim), x i m x_{im} xim表示第 i i i个样本的第 m m m维特征,样本 x i , x j x_i,x_j xi,xj的闵可夫斯基距离定义为 d i j = ( ∑ k = 1 m ∣ x i k − x j k ∣ p ) 1 p , p ≥ 1 d_{ij}=(\sum_{k=1}^{m}|x_{ik}-x_{jk}|^p)^{\frac{1}{p}},p\geq 1 dij=(k=1mxikxjkp)p1,p1

    1. 欧式距离:
      p = 2 p=2 p=2时就是我们常见的欧氏距离, d i j = ( ∑ k = 1 m ∣ x i k − x j k ∣ 2 ) 1 2 d_{ij}=(\sum_{k=1}^{m}|x_{ik}-x_{jk}|^2)^{\frac{1}{2}} dij=(k=1mxikxjk2)21
    1. 曼哈顿距离:
      p = 1 p=1 p=1时称为曼哈顿距离, d i j = ( ∑ k = 1 m ∣ x i k − x j k ∣ ) d_{ij}=(\sum_{k=1}^{m}|x_{ik}-x_{jk}|) dij=(k=1mxikxjk)
    1. 切比雪夫距离:
      p = ∞ p=\infty p=时称为切比雪夫距离, d i j = ( max ⁡ k ∣ x i k − x j k ∣ ) d_{ij}=(\max_k|x_{ik}-x_{jk}|) dij=(maxkxikxjk)

注:这里的各种距离其实和矩阵论中的各类范数对应

马哈拉诺比斯距离

马哈拉诺比斯距离简称马氏距离,它考虑了样本各个分量(不同特征)之间的相关性,并且同各个分量的尺度无关(不受不同分量尺度不同的影响)

定义:给定一个样本集合 X , X = ( x i j ) n × m X,X=(x_{ij})n\times m X,X=(xij)n×m样本集合各分量间的协方差矩阵记作 X X X。样本 x i x_i xi与样本 x j x_j xj之间的马氏距离定义为 d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac{1}{2}} dij=[(xixj)TS1(xixj)]21其中 x i = ( x i 1 , x i 2 , . . . , x i m ) , x j = ( x j 1 , x j 2 , . . . , x j m ) x_i=(x_{i1},x_{i2},...,x_{im}),x_j=(x_{j1},x_{j2},...,x_{jm}) xi=(xi1,xi2,...,xim),xj=(xj1,xj2,...,xjm)

闵可夫斯基距离VS马哈拉诺比斯距离

  1. 闵可夫斯基距离的缺点是很明显的,首先是未考虑各个分量的量纲的不同,只是单纯的进行数值计算,因此这种度量方式很容易受到分量取值范围的影响;其次该种方式并未考虑各个分量之间的相关性,与马氏距离相比缺少了一部分信息。但是闵可夫斯基距离优势在于理解直观,计算较为简单快速。
  2. 马氏距离很好的考虑了数据不同分量的问题,而且考虑了各个分量之间的相关性,在进行距离度量的同时包含一定的统计学信息,但是有时候马氏距离也

参考自:
欧氏距离与马氏距离的优缺点是什么?
马氏距离(Mahalanobis Distance)

协方差与相关系数

相关系数其实是对协方差的一种标准化。对于两个随机变量 X , Y X,Y X,Y他们的协方差定义为: C o v ( X , Y ) = E [ ( X − μ x ) ( Y − μ y ) ] Cov(X,Y)=E[(X-\mu_x)(Y-\mu_y)] Cov(X,Y)=E[(Xμx)(Yμy)]协方差表示了两个随机变量的协同变化情况。当协方差为正时说明两个随机变量是同向变化的(一个增大另一个也增大,一个减小另一个也减小)。对于多个随机变量而言,求解任意两个变量的协方差并按照矩阵的形式记录下来得到的就是协方差矩阵。

相关系数其实可以理解成是对协方差进行了标准化,消除了协方差中量纲的影响,只是单纯的反应两个变量单位变化量时的相似程度。对于两个随机变量 X , Y X,Y X,Y他们的相关系数定义为 ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρXY=D(X) D(Y) Cov(X,Y)其中 D ( X ) , D ( Y ) D(X),D(Y) D(X),D(Y)表示对应随机变量的方差

参考自:
如何通俗易懂地解释「协方差」与「相关系数」的概念?

聚类方法

层次聚类

层次聚类假设类别之间存在上下位的层次关系,按照聚合方向可以按照从上至下(分裂)聚类和从下到上(聚合)聚类

  1. 从上至下聚类(分裂): 在开始时将全部的样本都归为一类,然后将已有的类中距离最远的样本分到两个新的类别中,重复操作直到满足停止条件。
  2. 从下至上聚类(聚合): 在开始将每个样本都认为是一类,然后将已有类中距离最近的两类的样本聚合为一类,重复操作直到满足停止条件。

K-means聚类(K均值聚类)

K均值聚类是将样本集合划分为K个子集,将样本集合中的样本划分到K个子集中,使得每个样本距离所属类的中心的距离最短。

输入: N个样本的集合
输出:样本集合的聚类
(1) 初始化:随机选取K个初始样本作为类中心
(2) 聚类: 根据当前的类中心,计算剩余样本距离每个类中心的距离,并将其归入最近的一类中得到新的类集合
(3) 更新类中心:对于新得到的类集合,计算集合中样本的均值,得到新的类中心
(4) 迭代(2)(3)步直到满足聚类停止条件,得到聚类结果

K均值聚类的优点是计算速度较快,通俗易懂,但缺点是算法效果和初始类中心的选择,K值选择有很大关系。

聚类方法的比较总结

如何正确选择聚类算法?

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
统计学习基础-数据挖掘、推理与预测》是一本介绍统计学习基础理论和方法的书籍。统计学习是指通过数据来进行模式识别和预测的一种方法,而数据挖掘则是在大量数据中发现有价值的模式和关系。这本书主要介绍了统计学习的基本原理、算法和应用。 首先,这本书介绍了统计学习的基本原理。这包括了概率论、统计学、线性代数等基础数学知识,以及最大似然估计、贝叶斯估计等统计学习的核心思想。通过学习这些基础理论,读者可以对统计学习有更深入的理解。 其次,这本书详细介绍了数据挖掘的方法和技术。数据挖掘是一种通过自动或半自动的方式从大量数据中发现模式和关系的过程。这个过程包括数据的预处理、特征选择、模型构建、模型评估等步骤。读者可以学习到各种数据挖掘的方法和算法,例如分类、回归、聚类、关联规则等。 最后,这本书还介绍了统计学习在实际问题中的应用。统计学习可以应用于各种领域,例如金融、医疗、互联网等。通过实例分析,读者可以了解统计学习如何解决实际问题,并得到实际应用的经验。 总体而言,这本书是一本介绍统计学习基础的权威教材。通过学习这本书,读者可以掌握统计学习的基本原理和方法,了解数据挖掘的技术和应用,并应用于实际问题中。这本书对于统计学习领域的初学者和从业人员都有很大的帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值