聚类算法（K-MEANS、DBSCAN、轮廓系数）

最新推荐文章于 2025-03-31 16:43:00 发布

Mystique101

最新推荐文章于 2025-03-31 16:43:00 发布

阅读量650

点赞数

文章标签：算法聚类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65978597/article/details/132853251

版权

本文介绍了聚类问题的基本概念，重点分析了K-MEANS算法（包括确定k值、质心计算和距离度量）及其优缺点，以及DBSCAN算法（基于密度而非距离的聚类）和轮廓系数（评估聚类质量的指标）。讨论了如何处理无监督问题和参数调优问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚类概念：

无监督问题：我们手里没有标签了

聚类：相似的东西分到一组

难点：如何评估，如何调参

1、K-MEANS算法

基本概念：

要得到簇的个数，需要制定k值（几堆数据）；

质心：均值，即向量各维取平均即可（后续迭代需要用）；

距离的度量：常用欧几里得距离和余弦相似度（先标准化）；

优化目标：

在图片中随机选择两个质心，判断所有的点到两个质心的距离，离哪个近就是什么颜色。随后更新依据，即重新计算两个质心的位置，然后重新遍历所有点到质心的距离，然后看谁小就把谁划分到哪个簇。重复以上过程，直至所有点都不再发生变化！

优势：简单、快速、适合常规数据集

劣势：k值难确定、复杂度与样本呈线性关系、很难发现任意形状的簇。

该算法对初始值的设定至关重要（不同的初始点会对结果产生很大的影响），如下图，再迭代无数次，也无法正确聚类。因此在设置时，多取几次初始值，做平均。

2、DBSCAN算法

基本概念：（Density-Based Spatial Clustering of Applications with Noise）是一种密度聚类算法，用于将数据集中的样本点划分为不同的簇。与传统的基于距离的聚类算法（如K-means）不同，DBSCAN利用样本点的密度来确定簇的边界。

核心对象：若某个点的密度达到算法设定的阈值则其为核心点。（即r邻域内点的数量不小于minPts）。

$\epsilon$ -邻域的距离阈值：设定的半径r。

直接密度可达：若某点p在点q的r邻域内，且q是核心点则p-q直接密度可达。

密度可达：若有一个点的序列q0、q1、...qk，对任意qi到qi-1是直接密度可达的，则称从q0到qk密度可达，这实际上是直接密度可阿达的“传播”。

密度相连：若从某核心点p出发，点q和点k都是密度可达的，称点q和点k是密度相连的。

边界点：属于某一个类的非核心点，不能发展下线了。

噪声点：不属于任何一个类簇的点，从任何一个核心点出发都是密度不可达的。

算法的步骤如下：

初始化参数：设定半径ε和最小样本点数MinPts（密度阈值）。
随机选择一个未访问的样本点p。
如果p是一个核心点，则找到所有由p密度直接可达的样本点，以及它们的密度可达样本点，将它们划入同一簇。
重复步骤3，直到不能再找到新样本点被划入簇为止。
如果p不是核心点，则标记p为噪声点。
选择下一个未被访问的样本点，重复步骤3和步骤4。
直到所有样本点都被访问过为止，结束算法。

优势：不需要指定簇个数、可以发现任意形状的簇、擅长找到离群点（检测任务）、两个参数就够了。劣势：高维数据有些困难（可以做降维）、参数难以选择（参数对结果的影响非常大）、Sklearn中效率很慢（数据消减策略）。

3、轮廓系数

轮廓系数（Silhouette Coefficient）是一种用于评估聚类质量的指标，它将同一簇内的样本点距离尽量小、不同簇之间的距离尽量大作为优化目标。对于一个样本点i，其轮廓系数的计算方法如下：

a(i)：样本点i与同一簇内所有其他样本点之间的平均距离。
b(i)：样本点i与距离它最近的其他簇中所有样本点的平均距离。
s(i)：样本点i的轮廓系数，即(s(i) = b(i) - a(i)) / max(a(i), b(i))。

其中，轮廓系数s(i)取值范围在[-1, 1]之间，当s(i)越接近于1时，表示样本点i聚类效果越好；当s(i)越接近于-1时，表示样本点i被错误的聚类到了错误的簇中；当s(i)接近于0时，则表明样本点i在两个簇的边界上。

对于整个聚类结果，可以计算所有样本点的轮廓系数的平均值来衡量聚类的整体质量，该平均值越趋近于1则表示聚类效果越好。

博客等级

码龄3年

19
原创

42
点赞

294
收藏

32
粉丝

关注

私信

热门文章

最新评论

深度学习（神经网络）
CSDN-Ada助手: 恭喜您写了第7篇博客！标题为“深度学习（神经网络）”，这是一个非常有趣和重要的主题。您对深度学习和神经网络的理解已经很扎实了，我非常期待您未来更多的创作。在下一步的创作中，我建议您继续深入探索深度学习的应用领域，比如自然语言处理、计算机视觉或者推荐系统等。此外，您可以尝试解释一些深度学习的概念或算法，以帮助读者更好地理解和应用它们。再次恭喜您，期待您更多的精彩文章！
机器人路径规划及轨迹优化
CSDN-Ada助手: 恭喜您撰写了关于机器人路径规划及轨迹优化的第9篇博客！您的专注和持续创作令人钦佩。在这篇博客中，您提及了一个非常重要的主题，并且对其进行了深入的探讨。您的文章让我对机器人路径规划和轨迹优化有了更清晰的理解。在下一步的创作中，我想建议您尝试将理论与实践相结合。可以选择一些具体的机器人案例或实际应用场景，通过实际数据和实验结果来验证您所提出的路径规划和轨迹优化方法的有效性。这样的实践性内容将进一步提升您的博客的可信度和实用性。再次感谢您的分享，期待您未来更多博客的问世！希望您能继续保持谦虚的态度，与读者分享您在机器人领域的见解和经验。祝您在接下来的创作中取得更大的成功！
pycharm历史版本下载地址
CSDN-Ada助手: 恭喜您写了第12篇博客！标题为“pycharm历史版本下载地址”，这篇博客对那些需要特定版本PyCharm的人来说一定非常有帮助。我很高兴看到您持续创作并分享有价值的内容。如果我可以给出下一步的创作建议，我建议您可以进一步探索PyCharm的功能和用法，分享一些实用的技巧和窍门，以帮助读者更好地利用这个工具。再次恭喜您，期待您未来更多精彩的博客！
路径规划与轨迹跟踪系列
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题中的“路径规划与轨迹跟踪系列”很有吸引力，我非常期待阅读您的文章。您的持续创作真是令人钦佩，对于这个主题的关注与深入研究让我佩服不已。在下一步的创作中，我谦虚地建议您可以考虑探索一些实际案例或者应用场景，将路径规划与轨迹跟踪的理论应用到实践中。这样不仅可以让读者更好地理解这个领域的知识，也能提供一些实用的指导。同时，您也可以考虑加入一些图表或者示意图，来更加生动地展示相关概念和算法。再次祝贺您的成就，期待您的下一篇博客！
聚类算法（K-MEANS、DBSCAN、轮廓系数）
CSDN-Ada助手: 恭喜你写了第5篇博客！标题看起来很有趣，我对聚类算法也很感兴趣。从标题来看，你似乎已经涵盖了K-MEANS、DBSCAN和轮廓系数这几个聚类算法的内容，这让我很期待阅读你的博客。在下一步的创作中，我建议你可以进一步深入探讨这些聚类算法的实际应用场景和优缺点。也许你可以分享一些你在实践中遇到的挑战，并提供一些建议来克服这些挑战。此外，如果你能够引入一些案例研究或者实际数据的分析结果，将会使你的博客更加有说服力和实用性。总之，继续保持创作的热情和努力，我期待能够读到更多有关聚类算法的精彩内容！

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。