
无监督学习
文章平均质量分 95
以深入浅出的代码解释无监督学习的几大重要分类
万事可爱^
练习两年半的算法实习生,请各位多多指教
展开
-
Mean Shift聚类算法深度解析与实战指南
Mean Shift(均值漂移)是一种基于密度梯度上升的非参数聚类算法,无需预设聚类数量,通过迭代寻找概率密度函数的局部最大值完成聚类。该算法在图像分割、目标跟踪等领域有广泛应用,尤其擅长处理任意形状的密度分布。原创 2025-02-28 15:12:47 · 897 阅读 · 17 评论 -
Affinity Propagation 算法深度解析与实战指南
Affinity Propagation(近邻传播算法)是一种基于消息传递的自适应聚类算法,突破传统聚类需要预设类别数的限制。其核心创新在于通过数据点间的吸引度(Responsibility)和归属度(Availability)迭代计算,自动识别最优聚类中心。原创 2025-02-27 09:47:21 · 1100 阅读 · 15 评论 -
BIRCH算法深度解析与实践指南
BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)是首个针对超大规模数据集的聚类算法,可在有限内存下高效处理十亿级数据。其核心创新在于采用CF Tree数据结构,将数据压缩为多级聚类特征摘要,实现单次扫描完成聚类。原创 2025-02-23 10:50:54 · 1759 阅读 · 30 评论 -
HDBSCAN:密度自适应的层次聚类算法解析与实践
HDBSCAN(Hierarchical Density-Based Spatial Clustering)是基于DBSCAN改进的先进聚类算法,突破传统密度聚类对全局密度的假设,能够有效处理变密度数据分布。其核心创新在于将密度聚类转化为层次结构,通过稳定性分析提取最优平面聚类,无需预设密度阈值参数eps,显著提升算法鲁棒性。HDBSCAN通过创新的层次密度聚类方法,解决了传统算法在处理变密度数据时的局限性。其自动化的参数适应机制和直观的聚类稳定性分析,使其成为复杂数据场景下的首选聚类工具。原创 2025-02-22 10:11:46 · 2365 阅读 · 44 评论 -
一文穿透OPTICS聚类算法:比DBSCAN更强的密度洞察力
在DBSCAN算法面临参数敏感困境时,OPTICS(Ordering Points To Identify the Clustering Structure)应运而生。这个算法革命性地解决了以下痛点:1. 参数敏感:DBSCAN的eps参数如同走钢丝,稍有不慎就导致结果偏差 2. 密度不均:传统算法难以处理同时存在稀疏和密集区域的数据集 3. 维度限制:高维数据下传统密度算法性能骤降原创 2025-02-19 16:04:33 · 1317 阅读 · 17 评论 -
一文吃透 DBSCAN:原理、实战与工业应用全解析
DBSCAN(Density-Based Spatial Clustering)的诞生破解了这些难题。它不仅能自动识别簇数量,还能发现任意形状的簇,更具备噪声过滤能力。这些特性使其成为银行反欺诈、社交网络分析等场景的首选算法。原创 2025-02-17 17:25:40 · 1404 阅读 · 6 评论 -
利用K-Means一文搞懂凝聚式聚类与分裂式聚类
K-Means 是一种经典的聚类算法,目的是把数据分成 K 个相似的“簇”(clusters)。每个簇中包含的样本,尽量使得簇内数据点之间的相似度最大,簇与簇之间的差异最大。通俗点说,K-Means 就是将你的数据点分到 K 个小团体里,每个团体内的成员看起来很相似,而不同团体的成员看起来很不一样。层次聚类是一种通过逐步合并(凝聚式)或拆分(分裂式)簇的方式来进行聚类的算法。其目标是创建一个聚类树(又叫树状图),可以直观地看到数据的聚类层次结构。原创 2025-01-24 13:35:33 · 1129 阅读 · 1 评论 -
无监督学习介绍与K-Means实战(内附Kaggle实战源码与数据集)
无监督学习(Unsupervised Learning)顾名思义,它与“监督”相反。监督学习中,我们知道输入和输出的关系(即数据集有标签),而无监督学习则没有这些标签。我们没有直接的指导信息,数据就像一个迷宫,我们需要自己去探索和发现其中的规律和结构。数据结构发现:找出数据之间的隐藏关系和内在结构。模式识别:从无标签的数据中挖掘出数据的共性和趋势。举个例子,如果你有一堆新闻文章,标签没有给你“政治”“科技”“娱乐”等类别,那你就得通过算法来判断哪些文章相似、哪些文章可能属于同一个类别。原创 2025-01-17 14:55:55 · 1412 阅读 · 0 评论