聚类的基本概念

本文详细介绍了聚类的基本概念,包括聚类方法、相似度和距离的度量,如闵可夫斯基距离、马哈拉诺比斯距离、相关系数和夹角余弦。此外,还探讨了类的定义、类的特征以及类与类之间的不同距离定义,如最短距离、最长距离、中心距离和平均距离。
摘要由CSDN通过智能技术生成

聚类方法

聚类:

聚类是针对给定的样本,依据它们特征的相似度或距离,将其归并到若干个“类”或“簇”的数据分析问题。其结果满足,类内部相似,类之间不相似。在机器学习中聚类属于无监督学习,常用的算法很多,书中介绍了两种:层次聚类(hierarchical clustering)和 k均值聚类(k-means clustering).

相似度和距离:

如何定义样本之间的相似度或关系,这就需要一些度量指标。在聚类中,比较常见地就是相似度或距离。

在样本空间中, 样本集合可以用一个矩阵来表示, X = [ x i j ] m × n X=[x_{ij}]_{m\times n} X=[xij]m×n, 每个样本可以由n个特征表示,记作 1 × n {1\times n} 1×n, 总共有m个样本。

  1. 闵可夫斯基距离

    闵可夫斯基距离越大相似度越低,距离越小相似度越高。定义如下

    d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ p ) 1 p d_{ij} = ({\sum^{m}_{k=1}|x_{ki}-x_{kj}|^p})^{\frac{1}{p}} dij=(k=1mxkixkjp)p1

    p = 1 p=1 p=1 时,闵可夫斯基距离就是曼哈顿距离

    p = 2 p=2 p=2 时,闵可夫斯基距离就是欧式距离

    p = ∞ p=\infty p= 时,闵可夫斯基距离就是切比雪夫距离

  2. 马哈拉诺比斯距离

    马哈拉诺比斯距离简称马氏距离,考虑各个分量(特征)之间的相关性并与各个分量的尺度无关。 同样地马氏距离越大相似度越低,距离越小相似度越高。定义如下

    d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_{ij} = [(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac{1}{2}} dij=[(xixj)TS1(xixj)]21

    S S S 作为样本聚合的协方差矩阵

  3. 相关系数

    样本之间的相似度也可以用相关系数(correlation coefficient)来表示。 相关系数越接近1, 表示样本越相似; 越接近0,表示样本越不相似。 定义如下

    r i j = ∑ k = 1 m ( x k i − x − i ) ( x k j − x − j

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值