机器学习之聚类算法与应用（六）

最新推荐文章于 2023-06-20 18:30:00 发布

Happy祥子

最新推荐文章于 2023-06-20 18:30:00 发布

阅读量986

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/woaixuexihhh/article/details/84721469

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

聚类算法与应用

通常我们会使用”距离“衡量样本的远近

不同的场景：

图片检索：图片内容的相似度
图片分割：图片的像素、颜色的相似度
网页聚类：文本内容的相似度
社交网络聚类：关注人群，喜好、喜好内容
电商用户聚类：点击、购买商品、行为序列

不管用什么样的评定内容，最终都会把样本表示成向量，向量的距离该如何表示？

欧氏距离
$-z||=\sqrt{\sum_{d=1}^D(x_d-z_d)^2}$
曼哈顿距离
$\sum_{d=1}^{D}|x_d-z_d|$
余弦距离(一般不用，数学上证明不了收敛)
核函数映射后距离

什么是无监督学习？无监督学习=>只要数据，不要标记结果

下面简单叙述三种聚类算法：

可视化网址：https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

K-MEANS
- 输入：
  
  input1：N个样本
  
  input2：拟定的聚类个数K
- 初始化：
  
  两种方法：1.随机初始化K个D维的向量 2. 选取K个不同的样本点作为初始聚类中心
- 迭代直至收敛
  
  对于每个样本xn都指定其为离其最近的聚类中心的cluster，重新计算聚类中心
那么怎么才算做收敛呢？
- 聚类中心不再有变化
- 每个样本到对应聚类中心的距离之和不再有很大变化
下面举一个栗子说明聚类过程：
1. 随机初始化两个点

在这里插入图片描述

连接这两个点，做其垂直平分线，将样本分为两个类
重新计算质心
1. 连接这两个点，做其垂直平分线

在这里插入图片描述

5.	重复以上步骤，直到收敛

对于上面的过程，定义如下的损失函数：
$\sum_{n=1}^{N} \sum_{k=1}^{K}r_{nk}\lVert x_n-u_k \lVert^2$
我们在迭代的过程就是最小化以上的损失函数，其中 $u_1 u_2 ...u_k$ 是k个聚类中心，$r_{nk} $ 表示x_n 是否属于聚类k

局限性：

K-means对异常点的“免疫力”很差，我们可以通过一

些调整(比如中心不直接取均值，而是找均值最近的样

本点代替
这个算法真的是初始聚类中心敏感的
无法对带状的数据进行分类

优势：简单，快速，适合常规数据集

关于K的选定

选的不好确实会出现下面的状况

在这里插入图片描述

很经典的“肘点”法，选取不同的K值，画出损失函数曲线，选取“肘点”值，如下图所示：

在这里插入图片描述

层次聚类

简单点来说，层次聚类有点像我们构造哈夫曼树：
```
 1. 初始化每个样本为一个类
 2. 计算每个样本之间两两距离
 3. 将其中两个距离最近的类划分为一类，重复1~3步骤，直到只剩下一类
```
类与类之间的距离该怎么算？

第一、二种方法容易受到个别的离群点影响

K-means VS 层次聚类？
① K-means这种扁平聚类产出一个聚类结果(都是独立的)
② 层次聚类能够根据你的聚类程度不同，有不同的结果
③ K-means需要指定聚类个数K，层次聚类不用
④ K-means比层次聚类要快一些(通常说来)
DBSCAN算法（Density-Based Spatial Clustering of Applications with Noise）

基本概念
- 核心对象：若某个点的密度达到算法设定的阈值则其为核心点。（即 r 邻域内点的数量不小于 minPts）
- ϵ-邻域的距离阈值：设定的半径r
- 直接密度可达：若某点p在点q的 r 邻域内，且q是核心点则p-q直接密度可达。
- 密度可达：若有一个点的序列q0、q1、…qk，对任意qi-qi-1是直接密度可达的，则称从q0到qk密度可达，这实际上是直接密度可达的“传播”。
- 边界点:属于某一个类的非核心点,不能发展下线了
- 噪声点：不属于任何一个类簇的点，从任何一个核心点出发都是密度不可达的
- A：核心对象 B,C：边界点 N：离群点