《数据挖掘与数据化运营实战》（第9章）

最新推荐文章于 2022-04-02 16:55:08 发布

今天你DEBUG了吗

最新推荐文章于 2022-04-02 16:55:08 发布

阅读量412

点赞数

分类专栏：运营数据分析

本文链接：https://blog.csdn.net/weixin_45399074/article/details/107592656

版权

本文详细介绍了聚类分析在目标用户群体分类、产品组合和异常值探测等方面的应用，以及主要的聚类算法，如K-Means、K-Medoids、层次方法、基于密度和网格的方法。在实践中，要注意数据噪声和异常值的处理、数据标准化以及选择关键变量。聚类分析可与非聚类业务指标结合，用于数据探索、清理和个性推荐，但也存在需要预设K值、对噪声敏感等缺点。评价指标包括RMSSTD、R-Square和SPR。

摘要由CSDN通过智能技术生成

在这里插入图片描述

《数据挖掘与数据化运营实战》（第9章）

- 9 聚类分析的典型应用和技术小窍门

9 聚类分析的典型应用和技术小窍门

9.1 聚类分析的典型应用场景

目标用户群体分类
不同产品的价值组合
探测、发现孤立点、异常值。孤立点就是指相对于整体数据对象而言的少数数据对象，这些对象的行为特征与整体的数据行为特征很不一致，虽然在一般的数据处理过程中，会把孤立点作为噪声数据清理出去，但是在很多业务数据领域，孤立点的价值也很重要

9.2 主要聚类算法的分类

9.2.1 划分方法

给定具有n个对象的数据集，采用划分方法对数据集进行k个划分，每个划分代表一个簇，k<=n，并且每个划分至少包含一个对象，划分方法一般要做一个初始划分，然后采用迭代重新定位技术，通过让对象在不同组间的移动来改进划分的准确度和精度，一个好的划分原则是，同一个簇中对象之间的相似性很高，不同簇之间对象的相异性很高。

目前主流的划分方法如下：

K-Means算法，又叫K均值算法，在给定一个数据集合需要划分的数目k后，该算法可以根据数据划分到k个簇中，直到收敛为止，K-Means算法用的是簇中对象的平均值来划分，大致步骤就是，首先从随机抽取的k个数据点作为初始的聚类中心（种子中心），然后计算每个数据点到每个种子中心的距离，并把每个数据点分配到距离它最近的种子中心，一旦所有的数据点都被分配完成，每个聚类的聚类中心（种子中心）按照本聚类的现有数据点进行重新计算，不断重复，直到收敛，既满足某个终止条件，最常见的终止条件就是误差平方和（SSE）局部最小。
K-Medoids算法，又叫K中心点算法，该算法用最接近簇中心的一个对象表示划分的每个簇，划分过程相似，与K-Means算法最大的不同在于，K-Medoids算法是用簇中最接近中心点的一个真实数据对象来代表簇，而K-Means算法

最低0.47元/天解锁文章

今天你DEBUG了吗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《数据挖掘与数据化运营实战》（第9章）

《数据挖掘与数据化运营实战》（第9章）9 聚类分析的典型应用和技术小窍门9.1 聚类分析的典型应用场景9.2 主要聚类算法的分类9.2.1 划分方法9.2.2 层次方法9.2.3 基于密度的方法9.2.4 基于网格的方法9.3 聚类分析在实践应用中的重点注意事项9.3.1 处理数据噪声和异常值9.3.2 数据标准化9.3.3 聚类变量少而精9.4 聚类分析的扩展应用9.4.1 聚类的核心指标与非聚类的业务指标相辅相成9.4.2 数据的探索和清理工具9.4.3 个性推荐的应用9.5 聚类分析的优势和缺点9..
复制链接

扫一扫

专栏目录