聚类

本文详细介绍了聚类的相关概念,包括无监督学习、聚类的性能度量(外部指标与内部指标)、距离计算方法(如欧式、曼哈顿、切比雪夫和余弦距离),以及几种常见的聚类算法:原型聚类(K均值、LVQ、高斯混合聚类)、层次聚类和密度聚类(DBSCAN)。同时,讨论了聚类算法的优缺点,如DBSCAN能识别任意形状的聚类并能处理噪声点,但选择合适的参数较为关键。
摘要由CSDN通过智能技术生成

目录

  • 相关概念
  • 性能度量(外部指标、内部指标)
  • 距离计算
  • 原型聚类
  • 层次聚类
  • 密度聚类
  • 优缺点
  • sklearn参数详解

1.相关概念

  • 无监督学习:
    无监督学习是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。无监督学习的主要运用包含:聚类分析、关系规则、维度缩减。它是监督式学习和强化学习等策略之外的一种选择。 一个常见的无监督学习是数据聚类。在人工神经网络中,生成对抗网络、自组织映射和适应性共振理论则是最常用的非监督式学习。
  • 聚类:
    聚类是一种无监督学习。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。

2.性能度量

在机器学习中我们都需要对任务进行评价以便于进行下一步的优化,聚类的性能度量主要有一下两种。

  • 外部指标:是指把算法得到的划分结果跟某个外部的“参考模型”(如专家给出的划分结果)比较
  • 内部指标:是指直接考察聚类结果,不利用任何参考模型的指标。

3.距离计算

在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。

  • 欧式距离(2-norm距离)
  • 曼哈顿距离(Manhattan distance, 1-norm距离)
  • 切比雪夫距离
  • 闵可夫斯基距离
  • 余弦相似性
  • 马氏距离

欧式距离:欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。
d ( x , y ) = Σ k = 1 n ( x k − y k ) 2 d(x,y)=\sqrt{\Sigma_{k=1}^n (x_k-y_k)^2} d(x,y)=Σk=1n(xkyk)2

曼哈顿距离:
曼哈顿距离也称为街区距离,计算公式如下:
d ( x , y ) = Σ k = 1 n ∣ x k − y k ∣ d(x,y)=\Sigma_{k=1}^n \left|x_k-y_k\right| d(x,y)=Σk=1nxkyk
切比雪夫距离: d ( x , y ) = lim ⁡ n → ∞ ( Σ k = 1 n ( ∣ x k − y k ∣ ) r ) 1 r = m a x k ( ∣ x k − y k ∣ ) d(x,y) = \lim_{n\rightarrow \infty} (\Sigma_{k=1}^n (\left|x_k-y_k\right|)^r)^\dfrac{1}{r} = max_k (\left|x_k-y_k\right|)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值