聚类

最新推荐文章于 2023-04-26 10:11:09 发布

sharonuuu

最新推荐文章于 2023-04-26 10:11:09 发布

阅读量1w

点赞数

本文链接：https://blog.csdn.net/weixin_43799419/article/details/104046496

版权

本文详细介绍了聚类的相关概念，包括无监督学习、聚类的性能度量（外部指标与内部指标）、距离计算方法（如欧式、曼哈顿、切比雪夫和余弦距离），以及几种常见的聚类算法：原型聚类（K均值、LVQ、高斯混合聚类）、层次聚类和密度聚类（DBSCAN）。同时，讨论了聚类算法的优缺点，如DBSCAN能识别任意形状的聚类并能处理噪声点，但选择合适的参数较为关键。

摘要由CSDN通过智能技术生成

1.相关概念

无监督学习：
无监督学习是机器学习的一种方法，没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群。无监督学习的主要运用包含：聚类分析、关系规则、维度缩减。它是监督式学习和强化学习等策略之外的一种选择。一个常见的无监督学习是数据聚类。在人工神经网络中，生成对抗网络、自组织映射和适应性共振理论则是最常用的非监督式学习。
聚类：
聚类是一种无监督学习。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。

2.性能度量

在机器学习中我们都需要对任务进行评价以便于进行下一步的优化，聚类的性能度量主要有一下两种。

外部指标：是指把算法得到的划分结果跟某个外部的“参考模型”（如专家给出的划分结果）比较
内部指标：是指直接考察聚类结果，不利用任何参考模型的指标。

3.距离计算

在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。

欧式距离（2-norm距离）
曼哈顿距离（Manhattan distance, 1-norm距离）
切比雪夫距离
闵可夫斯基距离
余弦相似性
马氏距离

欧式距离:欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。
$d(x,y)=\sqrt{\Sigma_{k=1}^n (x_k-y_k)^2}$

曼哈顿距离:
曼哈顿距离也称为街区距离，计算公式如下：
$d(x,y)=\Sigma_{k=1}^n \left|x_k-y_k\right|$
切比雪夫距离： $\lim_{n\rightarrow \infty} (\Sigma_{k=1}^n (\left|x_k-y_k\right|)^r)^\dfrac{1}{r} = max_k (\left|x_k-y_k\right|)$

最低0.47元/天解锁文章

sharonuuu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类

目录相关概念性能度量（外部指标、内部指标）距离计算原型聚类层次聚类密度聚类优缺点sklearn参数详解1.相关概念无监督学习：无监督学习是机器学习的一种方法，没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群。无监督学习的主要运用包含：聚类分析、关系规则、维度缩减。它是监督式学习和强化学习等策略之外的一种选择。一个常见的无监督学习是数据聚类。在人工神经网络中...
复制链接

扫一扫