《数据挖掘与数据化运营实战》(第9章)
9 聚类分析的典型应用和技术小窍门
9.1 聚类分析的典型应用场景
- 目标用户群体分类
- 不同产品的价值组合
- 探测、发现孤立点、异常值。孤立点就是指相对于整体数据对象而言的少数数据对象,这些对象的行为特征与整体的数据行为特征很不一致,虽然在一般的数据处理过程中,会把孤立点作为噪声数据清理出去,但是在很多业务数据领域,孤立点的价值也很重要
9.2 主要聚类算法的分类
9.2.1 划分方法
给定具有n个对象的数据集,采用划分方法对数据集进行k个划分,每个划分代表一个簇,k<=n,并且每个划分至少包含一个对象,划分方法一般要做一个初始划分,然后采用迭代重新定位技术,通过让对象在不同组间的移动来改进划分的准确度和精度,一个好的划分原则是,同一个簇中对象之间的相似性很高,不同簇之间对象的相异性很高。
目前主流的划分方法如下:
- K-Means算法,又叫K均值算法,在给定一个数据集合需要划分的数目k后,该算法可以根据数据划分到k个簇中,直到收敛为止,K-Means算法用的是簇中对象的平均值来划分,大致步骤就是,首先从随机抽取的k个数据点作为初始的聚类中心(种子中心),然后计算每个数据点到每个种子中心的距离,并把每个数据点分配到距离它最近的种子中心,一旦所有的数据点都被分配完成,每个聚类的聚类中心(种子中心)按照本聚类的现有数据点进行重新计算,不断重复,直到收敛,既满足某个终止条件,最常见的终止条件就是误差平方和(SSE)局部最小。
- K-Medoids算法,又叫K中心点算法,该算法用最接近簇中心的一个对象表示划分的每个簇,划分过程相似,与K-Means算法最大的不同在于,K-Medoids算法是用簇中最接近中心点的一个真实数据对象来代表簇,而K-Means算法