聚类方法概要

最新推荐文章于 2022-12-15 17:16:51 发布

米竹

最新推荐文章于 2022-12-15 17:16:51 发布

阅读量566

点赞数

分类专栏：机器学习文章标签：聚类 K-Means

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xienan_ds_zj/article/details/107115694

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文主要简单介绍聚类的本质思想、用途及分类。
在最后给出各算法详细内容的链接。

一、概要

聚类算法是无监督学习中的典型算法。
通过训练不带标签的原数据，根据样本的相似度或距离将其归类，总结每一类的基本特征，从而了解实质。聚类本质是统计描述方法，建立建设，而非验证假设。
用一句古语来说，就是“物以类聚，人以群分”。
聚类的核心概念是相似度或距离，因为相似度或距离将直接影响聚类的结果，所以其选择会是聚类的根本问题，具体的选择取决于应用场景的特性。

常用的相似度或距离：

闵可夫斯基距离（简称闵氏距离，可以衍生为欧氏距离、曼哈顿距离、切比雪夫距离等）；
马氏距离（考虑了各变量之间的相关系，且不受量纲的影响）

欧氏距离与马氏距离的优缺点

相关系数
夹角余弦（文本分析用的多）

二、用途

常见的使用场景有：

预分析过程（划分个体的过程；为下一步建模提供指导意见）；
细分市场、个体消费行为划分（先聚类，再利用判别分析进一步研究各个群体之间的差异）；
异常检测；
数据离散化（比如对一个或多个连续特征聚类，实现连续特征离散化的目的）；
设计抽样方案（分层抽样的依据）。

三、分类

按聚类结果分：

硬聚类：聚类结果中每个样本只能属于一个类，常见的 K-Means、层次聚类等；
软聚类：聚类结果中每个样本属于哪个类别以概率的形式呈现，即每个样本可能属于多个样本，如高斯混合模型。

按算法特性分：
在这里插入图片描述

四、聚类算法的选择

如果数据量为中小规模，例如在 100w 条之内，K-Means 是不错的选择（也可以视情况用 Mini Batch KMeans），100w 以上需要考虑用 Mini Batch KMeans；
如果数据中有离群点，使用基于密度的 DBSCAN 可以有效应对；
如果数据集是高维的，使用基于图论的谱聚类，其他的聚类算法在应对高维数据集时很难获得令人满意的效果。

五、聚类算法详述

K-Means 概要及其实现

参考：
[1] 李航. 《统计学习方法》.
[2] 宋天龙. 《Python 数据分析与数据化运营》

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类方法概要

本文主要简单介绍聚类的本质思想、用途及分类。在最后给出各算法详细内容的链接。一、概要聚类算法是无监督学习中的典型算法。通过训练不带标签的原数据，根据样本的相似度或距离将其归类，总结每一类的基本特征，从而了解实质。聚类本质是统计描述方法，建立建设，而非验证假设。用一句古语来说，就是“物以类聚，人以群分”。聚类的核心概念是相似度或距离，因为相似度或距离将直接影响聚类的结果，所以其选择会是聚类的根本问题，具体的选择取决于应用场景的特性。常用的相似度或距离：闵可夫斯基距离（简称闵氏距离，可以衍生
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。