二十二、【人工智能】【机器学习】【非监督学习】- OPTICS (Ordering Points To Identify the Clustering Structure)

系列文章目录

第一章 【机器学习】初识机器学习

第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章 【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)

十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)

十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)

十五、【机器学习】【监督学习】- 神经网络回归 

十六、【机器学习】【监督学习】- 支持向量回归 (SVR)

十七、【机器学习】【非监督学习】- K-均值 (K-Means) 

十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)

二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)​​ 


目录

系列文章目录

一、非监督学习

(一)、定义

(二)、训练流程

(三)、基本算法分类

 二、OPTICS (Ordering Points To Identify the Clustering Structure)

(一)、定义

(二)、基本概念

(三)、训练过程

1.初始化

2.构建密度可达图

3.生成聚类顺序

4.提取聚类

5.结果分析

6.后处理

(四)、特点

(五)、适用场景

(六)、扩展

三、总结


一、非监督学习

(一)、定义

        非监督学习是一种机器学习方法,它处理的是没有标签的数据集。与监督学习不同,非监督学习算法不需要知道数据的正确分类或目标值。它的目标是通过数据内部的结构和模式来推断出有意义的信息,如数据的分布、聚类、降维或异常检测等。

(二)、训练流程

        非监督学习的训练流程通常包含以下几个步骤:

  1. 数据准备:收集和预处理数据,可能包括数据清洗、缺失值处理、数据标准化或归一化等。

  2. 模型选择:根据问题的性质选择合适的非监督学习算法。

  3. 参数初始化:初始化模型的参数,这一步对于某些算法至关重要,如K-means聚类。

  4. 模型训练:使用无标签数据训练模型,寻找数据中的结构或模式。这一过程可能涉及到迭代优化,直到满足某个停止准则,如收敛或达到预定的迭代次数。

  5. 结果评估:评估模型的结果,这通常比监督学习更具有挑战性,因为没有明确的“正确答案”。评估可能基于内在指标(如聚类的紧凑度和分离度)或外在指标(如与已知分类的比较)。

  6. 应用模型:使用训练好的模型对新数据进行分析或预测,如对新数据进行聚类或降维。

(三)、基本算法分类

        非监督学习算法可以大致分为以下几类:

  1. 聚类算法:用于将数据点分组到不同的簇中,常见的算法有K-means、层次聚类、DBSCAN、Gaussian Mixture Models等。

  2. 降维算法:用于减少数据的维度,同时尽可能保留数据的结构信息,常见的算法有PCA(主成分分析)、t-SNE(t-分布随机邻域嵌入)、自编码器等。

  3. 关联规则学习:用于发现数据集中项之间的关系,如Apriori算法和Eclat算法。

  4. 异常检测算法:用于识别数据集中的异常点或离群点,如Isolation Forest、Local Outlier Factor等。

  5. 自组织映射(SOM):一种神经网络模型,用于数据可视化和聚类,可以将高维数据映射到低维空间中。

  6. 生成模型:如变分自编码器(VAE)和生成对抗网络(GAN),它们可以生成类似训练数据的新样本。

        非监督学习在很多场景中都有广泛应用,如客户细分、图像识别、自然语言处理、生物信息学和推荐系统等。由于其灵活性和在处理大量未标注数据时的优势,非监督学习是数据科学和人工智能领域的重要组成部分。


 二、OPTICS (Ordering Points To Identify the Clustering Structure)

(一)、定义

      OPTICS是一种基于密度的聚类算法,旨在发现任意形状的聚类,并且能够处理噪声和离群点。不同于传统的聚类算法,如k-means,OPTICS不需要用户预先知道聚类的数量。它的主要目标是确定数据点的密度分布,从而识别出数据的聚类结构。

(二)、基本概念

     在OPTICS中,有几个关键的概念:

  • 核心距离(Core Distance):对于一个数据点p和一个最小邻域参数MinPts,核心距离是点p周围至少包含MinPts个邻近点的最小区间的半径。如果点p周围没有足够的邻近点,则其核心距离定义为无穷大。

  • 可达距离(Reachability Distance):从一个点p到另一个点q的可达距离,是基于点p的核心距离和点p到点q的实际距离计算的。它定义为点p到点q的距离和点p的核心距离的最大值。

  • 直接密度可达(Direct Density-Reachable):如果点q在点p的ε邻域内,且点p是核心点(即点p周围有至少MinPts个邻近点),那么我们说点q直接密度可达点p。

(三)、训练过程

1.初始化
  •  参数设定:首先,需要设定两个关键参数:
    • MinPts:指定一个点被认为是“核心点”所需要的最近邻居的最小数目。
    • ε:用于确定邻域大小的半径,尽管在OPTICS中,ε的值不像在DBSCAN中那样严格,因为OPTICS算法最终会考虑一系列的ε值。
2.构建密度可达图
  •  邻域查找:对于数据集中的每个点p,计算其ε邻域内的所有点,即所有距离不超过ε的点集合。

  • 核心距离计算:如果点p的邻域内点的数量大于或等于MinPts,则点p是一个核心点。点p的核心距离被定义为其ε邻域中第MinPts个最近点的距离。如果点p不是核心点,其核心距离设为无穷大。

  • 可达距离计算:对于点p的每个邻域点q,计算q的可达距离,定义为max{core-distance(p), dist(p,q)},其中dist(p,q)pq之间的实际距离。如果q不在pε邻域内,q的可达距离为无穷大。 

3.生成聚类顺序
  •  起始点选择:选择一个未被访问过的点作为起始点。

  • 密度可达性探索:对于当前点p

    • 如果p是一个核心点,从p开始,找到所有直接密度可达于p的点,并将这些点按可达距离递增的顺序添加到一个链表中。
    • 对于链表中的每个点q,检查是否可以通过p更新其可达距离(即,通过p到达q的可达距离是否小于q已有的可达距离)。如果可以更新,更新q的可达距离,并标记pq的前驱点。
  • 迭代过程:重复步骤6,直到链表为空或者所有点都已经被访问过。 

4.提取聚类
  •  聚类边界确定:完成上述过程后,将得到一个按照可达距离排序的点列表。在该列表中,聚类内部的点通常具有较小的可达距离,而聚类之间的点则具有较大的可达距离。聚类边界可以通过观察可达距离的显著增加来确定。

  • 聚类提取:从排序的点列表中,选择一个起点,并沿着可达距离连续的部分形成一个聚类,直到遇到可达距离的突变点,这标志着聚类的结束。然后,从下一个未分配的点开始重复此过程,直到所有点都被分配到聚类中。 

5.结果分析
  •  结果可视化:通常,将点的可达距离绘制成图表,可以直观地看到聚类的形成和边界。此外,可以使用不同的颜色或标记来可视化不同聚类中的点。 
6.后处理
  •  参数调整和聚类优化:如果初始的MinPtsε参数导致了不满意的结果,可以尝试不同的参数组合,或使用自动化的方法(如HDBSCAN)来优化聚类结果。 

整个训练过程体现了OPTICS算法如何通过计算和比较点之间的密度关系,逐步构建出数据的聚类结构。这种方法的优势在于能够处理任意形状的聚类,并且对噪声点和离群点有较好的容忍度。

(四)、特点

  • 无需预知聚类数量:这是OPTICS的一个显著优点,因为它能够自适应地确定聚类的数量和形状。

  • 处理噪声和离群点:由于其基于密度的特性,OPTICS能够有效地区分噪声点和真正的聚类点。

  • 可变密度聚类:OPTICS能够发现具有不同密度的聚类,这对于真实世界数据集来说是非常实用的。

(五)、适用场景

  • 异常检测:由于OPTICS能够区分密度较低的区域,它适用于检测数据集中的异常或离群点。

  • 数据探索:对于未知结构的数据集,OPTICS可以帮助发现数据的内在聚类结构,不需要先验知识。

  • 图像和视频分析:在处理像素或帧序列时,OPTICS能够识别出具有相似特征的区域或事件。

(六)、扩展

  • HDBSCAN:是OPTICS的一个流行扩展,它提供了更自动化的参数选择和更高效的聚类过程,尤其适用于大数据集。

  • LOF (Local Outlier Factor):虽然不是聚类算法,但LOF基于与OPTICS类似的密度可达性概念,用于检测数据集中的离群点。

三、总结

OPTICS及其变种在数据挖掘、机器学习和模式识别中扮演着重要角色,尤其是在处理具有复杂结构和噪声的真实数据时。

  • 27
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值