二十二、【人工智能】【机器学习】【非监督学习】- OPTICS (Ordering Points To Identify the Clustering Structure)

暴躁的大熊

已于 2024-08-01 17:09:41 修改

阅读量1k

点赞数 27

分类专栏：人工智能文章标签：机器学习学习 OPTICS 算法

于 2024-07-25 08:14:19 首次发布

本文链接：https://blog.csdn.net/xgq8217/article/details/140631382

版权

人工智能专栏收录该内容

46 篇文章 0 订阅

订阅专栏

系列文章目录

第一章【机器学习】初识机器学习

第二章【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)

十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)

十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)

十五、【机器学习】【监督学习】- 神经网络回归

十六、【机器学习】【监督学习】- 支持向量回归 (SVR)

十七、【机器学习】【非监督学习】- K-均值 (K-Means)

十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)

二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)

二、OPTICS (Ordering Points To Identify the Clustering Structure)

一、非监督学习

（一）、定义

非监督学习是一种机器学习方法，它处理的是没有标签的数据集。与监督学习不同，非监督学习算法不需要知道数据的正确分类或目标值。它的目标是通过数据内部的结构和模式来推断出有意义的信息，如数据的分布、聚类、降维或异常检测等。

（二）、训练流程

非监督学习的训练流程通常包含以下几个步骤：

数据准备：收集和预处理数据，可能包括数据清洗、缺失值处理、数据标准化或归一化等。
模型选择：根据问题的性质选择合适的非监督学习算法。
参数初始化：初始化模型的参数，这一步对于某些算法至关重要，如K-means聚类。
模型训练：使用无标签数据训练模型，寻找数据中的结构或模式。这一过程可能涉及到迭代优化，直到满足某个停止准则，如收敛或达到预定的迭代次数。
结果评估：评估模型的结果，这通常比监督学习更具有挑战性，因为没有明确的“正确答案”。评估可能基于内在指标（如聚类的紧凑度和分离度）或外在指标（如与已知分类的比较）。
应用模型：使用训练好的模型对新数据进行分析或预测，如对新数据进行聚类或降维。

（三）、基本算法分类

非监督学习算法可以大致分为以下几类：

聚类算法：用于将数据点分组到不同的簇中，常见的算法有K-means、层次聚类、DBSCAN、Gaussian Mixture Models等。
降维算法：用于减少数据的维度，同时尽可能保留数据的结构信息，常见的算法有PCA（主成分分析）、t-SNE（t-分布随机邻域嵌入）、自编码器等。
关联规则学习：用于发现数据集中项之间的关系，如Apriori算法和Eclat算法。
异常检测算法：用于识别数据集中的异常点或离群点，如Isolation Forest、Local Outlier Factor等。
自组织映射（SOM）：一种神经网络模型，用于数据可视化和聚类，可以将高维数据映射到低维空间中。
生成模型：如变分自编码器（VAE）和生成对抗网络（GAN），它们可以生成类似训练数据的新样本。

非监督学习在很多场景中都有广泛应用，如客户细分、图像识别、自然语言处理、生物信息学和推荐系统等。由于其灵活性和在处理大量未标注数据时的优势，非监督学习是数据科学和人工智能领域的重要组成部分。

二、OPTICS (Ordering Points To Identify the Clustering Structure)

（一）、定义

OPTICS是一种基于密度的聚类算法，旨在发现任意形状的聚类，并且能够处理噪声和离群点。不同于传统的聚类算法，如k-means，OPTICS不需要用户预先知道聚类的数量。它的主要目标是确定数据点的密度分布，从而识别出数据的聚类结构。

（二）、基本概念

在OPTICS中，有几个关键的概念：

核心距离(Core Distance)：对于一个数据点p和一个最小邻域参数MinPts，核心距离是点p周围至少包含MinPts个邻近点的最小区间的半径。如果点p周围没有足够的邻近点，则其核心距离定义为无穷大。
可达距离(Reachability Distance)：从一个点p到另一个点q的可达距离，是基于点p的核心距离和点p到点q的实际距离计算的。它定义为点p到点q的距离和点p的核心距离的最大值。
直接密度可达(Direct Density-Reachable)：如果点q在点p的ε邻域内，且点p是核心点（即点p周围有至少MinPts个邻近点），那么我们说点q直接密度可达点p。

（三）、训练过程

1.初始化

参数设定：首先，需要设定两个关键参数：
- MinPts：指定一个点被认为是“核心点”所需要的最近邻居的最小数目。
- ε：用于确定邻域大小的半径，尽管在OPTICS中，ε的值不像在DBSCAN中那样严格，因为OPTICS算法最终会考虑一系列的ε值。

2.构建密度可达图

邻域查找：对于数据集中的每个点p，计算其ε邻域内的所有点，即所有距离不超过ε的点集合。
核心距离计算：如果点p的邻域内点的数量大于或等于MinPts，则点p是一个核心点。点p的核心距离被定义为其ε邻域中第MinPts个最近点的距离。如果点p不是核心点，其核心距离设为无穷大。
可达距离计算：对于点p的每个邻域点q，计算q的可达距离，定义为max{core-distance(p), dist(p,q)}，其中dist(p,q)是p和q之间的实际距离。如果q不在p的ε邻域内，q的可达距离为无穷大。

3.生成聚类顺序

起始点选择：选择一个未被访问过的点作为起始点。
密度可达性探索：对于当前点p：
- 如果p是一个核心点，从p开始，找到所有直接密度可达于p的点，并将这些点按可达距离递增的顺序添加到一个链表中。
- 对于链表中的每个点q，检查是否可以通过p更新其可达距离（即，通过p到达q的可达距离是否小于q已有的可达距离）。如果可以更新，更新q的可达距离，并标记p为q的前驱点。
迭代过程：重复步骤6，直到链表为空或者所有点都已经被访问过。

4.提取聚类

聚类边界确定：完成上述过程后，将得到一个按照可达距离排序的点列表。在该列表中，聚类内部的点通常具有较小的可达距离，而聚类之间的点则具有较大的可达距离。聚类边界可以通过观察可达距离的显著增加来确定。
聚类提取：从排序的点列表中，选择一个起点，并沿着可达距离连续的部分形成一个聚类，直到遇到可达距离的突变点，这标志着聚类的结束。然后，从下一个未分配的点开始重复此过程，直到所有点都被分配到聚类中。

5.结果分析

结果可视化：通常，将点的可达距离绘制成图表，可以直观地看到聚类的形成和边界。此外，可以使用不同的颜色或标记来可视化不同聚类中的点。

6.后处理

参数调整和聚类优化：如果初始的MinPts和ε参数导致了不满意的结果，可以尝试不同的参数组合，或使用自动化的方法（如HDBSCAN）来优化聚类结果。

整个训练过程体现了OPTICS算法如何通过计算和比较点之间的密度关系，逐步构建出数据的聚类结构。这种方法的优势在于能够处理任意形状的聚类，并且对噪声点和离群点有较好的容忍度。

（四）、特点

无需预知聚类数量：这是OPTICS的一个显著优点，因为它能够自适应地确定聚类的数量和形状。
处理噪声和离群点：由于其基于密度的特性，OPTICS能够有效地区分噪声点和真正的聚类点。
可变密度聚类：OPTICS能够发现具有不同密度的聚类，这对于真实世界数据集来说是非常实用的。

（五）、适用场景

异常检测：由于OPTICS能够区分密度较低的区域，它适用于检测数据集中的异常或离群点。
数据探索：对于未知结构的数据集，OPTICS可以帮助发现数据的内在聚类结构，不需要先验知识。
图像和视频分析：在处理像素或帧序列时，OPTICS能够识别出具有相似特征的区域或事件。

（六）、扩展

HDBSCAN：是OPTICS的一个流行扩展，它提供了更自动化的参数选择和更高效的聚类过程，尤其适用于大数据集。
LOF (Local Outlier Factor)：虽然不是聚类算法，但LOF基于与OPTICS类似的密度可达性概念，用于检测数据集中的离群点。

三、总结

OPTICS及其变种在数据挖掘、机器学习和模式识别中扮演着重要角色，尤其是在处理具有复杂结构和噪声的真实数据时。

暴躁的大熊

关注

27
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
二十二、【人工智能】【机器学习】【非监督学习】- OPTICS (Ordering Points To Identify the Clustering Structure)

非监督学习是一种机器学习方法，它处理的是没有标签的数据集。与监督学习不同，非监督学习算法不需要知道数据的正确分类或目标值。它的目标是通过数据内部的结构和模式来推断出有意义的信息，如数据的分布、聚类、降维或异常检测等。OPTICS是一种基于密度的聚类算法，旨在发现任意形状的聚类，并且能够处理噪声和离群点。不同于传统的聚类算法，如k-means，OPTICS不需要用户预先知道聚类的数量。它的主要目标是确定数据点的密度分布，从而识别出数据的聚类结构。
复制链接

扫一扫

专栏目录