聚类算法详解——深度AI科普团队

最新推荐文章于 2024-07-20 00:42:41 发布

猛男技术控

最新推荐文章于 2024-07-20 00:42:41 发布

阅读量2.2k

点赞数

分类专栏：机器学习深度AI科普团队文章标签：机器学习聚类算法 python 人工智能

CSDN小白不白

本文链接：https://blog.csdn.net/weixin_45755332/article/details/106342260

版权

机器学习同时被 2 个专栏收录

29 篇文章 13 订阅

订阅专栏

深度AI科普团队

23 篇文章 2 订阅

订阅专栏

聚类是一种无监督的学习，它将相似的对象归到同一个簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。

K-均值聚类算法

基本概念：

簇：假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在于，分类的目标事先已知，而聚类则是类别未知，其产生的结果和分类相同。
K-均值中的K（簇个数）是自己给定的，k是多少就有多少个簇。
质心：均值，即向量各维取平均，即簇中所有点的中心来描述。
距离的度量：常用欧氏距离 ( $\sqrt{x^2+y^2} )$ 和余弦相似度（通过测量两个向量的夹角的余弦值来度量它们之间的相似性）,大多情况下都要先标准化
优化目标： $\sum_{i=1}^{K}\sum_{x\in{Ci}}dist(c_i,x)^2$ 就是使所有簇里的点到质心的距离加起来最小

工作流程：

随机确定k个初始点作为质心
然后将数据集中的每个点分配到一个簇中，即为每个点找距其最近的质心
然后其分配给该质心所对应的簇
然后每个簇的质心更新为该簇所有点的平均值

下面具体来看：

1.根据自己的数据，设K值，现假设K=2
在这里插入图片描述
2.K=2，所以随机取两个点作为质心

3.根据那两个质心进行距离计算并划分簇

4.对已经分类了的两个簇进行质心的更新，再重新遍历一遍计算距离

5.更新到再更新他的簇也不再变之后就说明已经分好了

在这里插入图片描述

优缺点

优点：简单快速，适合常规数据集

缺点：

K值难确定，不好调参
复杂度与样本成线性关系，在大规模数据集上收敛较慢。
可能收敛到局部最小值
对一些环状簇或者奇形怪状的簇难以分离

适用数据类型：数值型数据。

在这里插入图片描述

K-均值聚类的一般流程
(1) 收集数据：使用任意方法。

(2) 准备数据：需要数值型数据来计算距离，也可以将标称型数据映射为二值型数据再用于距离计算。

(3) 分析数据：使用任意方法。

(4) 训练算法：不适用于无监督学习，即无监督学习没有训练过程。

(5) 测试算法：应用聚类算法、观察结果。可以使用量化的误差指标如误差平方和（后面会介绍）来评价算法的结果。

(6) 使用算法：可以用于所希望的任何应用。通常情况下，簇质心可以代表整个簇的数据来做出决策。

DBSCAN聚类（ Density-Based Spatial Clustering of Applications with Noise）

DBSCAN 的主要优点是它不需要用户先验地设置簇K的个数，可以划分具有复杂形状的簇，还可以找出不属于任何簇的点。DBSCAN 比凝聚聚类和 k 均值稍慢，但仍可以扩展到相对较大的数据集。

原理思想

识别特征空间的“拥挤”区域中的点，在这些区域中许多数据点靠近在一起。这些区域被称为特征空间中的密集区域。

思想是，簇形成数据的密集区域，并由相对较空的区域分隔开。

基本概念

核心样本：在密集区域内的点被称为核心样本（或核心对象，核心点）。

ϵ-邻域的距离阈值：设定的半径r

直接密度可达：若某点b在点q的 r 邻域内，且a是核心点则p-q直接密度可达。

密度可达：若有一个点的序列q0、q1、…qk，对任意qi-qi-1是直接密度可达的，则称从q0到qk密度可达，这实际上是直接密度可达的“传播”。
此图a，b密度可达
在这里插入图片描述
密度相连：若从某核心点p出发，点q和点k都是密度可达的,则称点q和点k是密度相连的。