聚类分析的典型应用和技术

最新推荐文章于 2024-08-07 15:33:58 发布

Star-Technology

最新推荐文章于 2024-08-07 15:33:58 发布

阅读量1.6w

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘数据数据分析需求聚类

本文链接：https://blog.csdn.net/ymf827311945/article/details/77751829

版权

本文详细介绍了聚类分析在数据化运营中的应用，如目标用户分类和异常值检测，并探讨了主要的聚类算法，包括K-Means、K-Medoids、层次方法和基于密度与网格的方法。同时，提到了聚类分析中的注意事项，如数据噪声处理、数据标准化和变量选择，以及聚类分析的优势和局限性。最后，讨论了聚类结果的评价指标和业务价值。

摘要由CSDN通过智能技术生成

1.聚类技术，一方面本身就是一种模型技术，另一方面，聚类技术又常常作为数据分析过程中，前期进行数据摸底和数据清洗、数据整理的工具
2.聚类分析技术在数据化运营实践中常见的业务应用场景：目标用户的群体分类、不同产品的价值组合、探测、发现孤立点、异常值
孤立点就是指相对于整体数据对象而言的少数数据对象，这些对象的行为特征与整体的数据行为特征很不一致，虽然在一般的数据处理过程中，会把孤立点作为噪声数据清理出去，但是在很多业务数据领域，孤立点的价值也很重要
3.主要的聚类算法分类
A.划分方法，给定具有N个对象的数据集，采用划分方法对数据集进行k个划分，每个划分代表一个簇，k<=n，并且每个划分至少包含一个对象，划分方法一般要做一个初始划分，然后采用迭代重新定位技术，通过让对象在不同组间的移动来改进划分的准确度和精度，一个好的划分原则是，同一个簇中对象之间的相似性很高，不同簇之间对象的相异性很高
K-Means算法，又叫K均值算法，在给定一个数据集合需要划分的数目k后，该算法可以根据数据划分到k个簇中，直到收敛为止，K-Means算法用的是簇中对象的平均值来划分，大致步骤就是，首先从随机抽取的k个数据点作为初始的聚类中心（种子中心），然后计算每个数据点到每个种子中心的距离，并把每个数据点分配到距离它最近的种子中心，一旦所有的数据点都被分配完成，每个聚类的聚类中心（种子中心）按照本聚类的现有数据点进行重新计算，不断重复，直到收敛，既满足某个终止条件，最常见的终止条件就是误差平方和（SSE）局部最小