大数据分析笔记 (3) - 聚类(clustering)

最新推荐文章于 2023-06-02 15:43:55 发布

王踹踹

最新推荐文章于 2023-06-02 15:43:55 发布

阅读量3.7k

点赞数

分类专栏：大数据文章标签：聚类算法大数据

大数据专栏收录该内容

11 篇文章 18 订阅

订阅专栏

大数据分析笔记 - 聚类

监督学习和无监督学习
K-mean 聚类算法
基于密度的聚类 (Density based Clustering)
- DBSCAN
层次聚类 (Hierarchical Clustering)
- 步骤

监督学习和无监督学习

标记数据(labelled data)与未标记数据(unlabelled data)

无监督学习(unsupervised techniques)：和寻找未标记数据中的隐藏结构的问题相关。
例子：聚类(clustering), 密度估计(density estimation), 降维(dimensionality reduction)

K-mean 聚类算法

给定m个对象的集合，每个对象拥有n个可衡量的属性。每个对象都是n维空间中的一个点。
对于选定的k值 (即聚类的数量)，根据对象与第k组质心的临近度(proximity)来确定k个对象簇。
簇质心为每个簇中对象的n维向量的算术平均值。

用例

通常作为分类(classification)的引导。
一旦识别出簇类，则可以将标签应用于每个簇类以进行分类。

应用

图像处理
医疗 (聚类患者)
客户分组 (查找相似的客户)

步骤

选择k的值，并且选择k的质心初始猜测值 (initial guess for the centroids)。
计算从每个数据点(xi, yi)到每个质心的距离。将每个点分配给离其最近的质心。
计算并更新步骤2中新形成定义的每个簇类的质量中心。
重复步骤2和步骤3的操作，直到算法收敛(convergence)。

计算两点的欧几里得距离(Euclidean distance):

计算多个点的质心：

确定k的值(簇类的个数)

使用内平方和(Within Sum of Sqaure, WSS)的启发式(heuristic)算法。WSS是所有数据点与其最近质心之间距离的平方和。如果这些点相对靠近它们各自的质心，那么WSS将相对较小。因此，如果k+1聚类没有显著降低k聚类中的WSS值，那么增加一个簇意义可能不大。
在这里插入图片描述

诊断

在结果生成之后，应该考虑以下问题：

聚类之间是否较好地相互分离？
是否存在只有几个点的簇？
是否有靠得很近得质心？

如果多的簇数量并没有形成簇之间更好的区分，那么更少的簇应该是更好的选择。

必须做出以下决定：

聚类分析应包括哪些对象属性(object attributions)？
每个属性应该采用什么计量单位(unit of measure)？(例如，选择英里还是公里)
是否需要缩放(rescaled)属性？
一种属性可能会产生不成比例的影响。

对象属性：
在选择对象属性的时候，需要知道新对象的哪些属性在其被分配簇时是已知的。(比如当前的客户拥有满意度或购买频率属性，但是潜在客户可能没有这些信息)
尽量减少属性的数量：

避免使用太多的变量。太多的属性可能会将最重要变量的影响最小化。
避免使用多个类似的变量。可能会突出一类属性的重要性。
识别任何高度相关的属性，然后在聚类分析中使用相关属性中的一种或者两种。(可以使用散点图矩阵)
特征选择：信息增益，PCA。

度量单位(unit of measure)可能会影响聚类结果。
在这里插入图片描述
重新缩放属性(rescaling attributes)会影响聚类结果。(将每个属性除以其标准差 standard deviation)

注意事项

K-mean聚类算法对初始质心(initial centroids)的开始位置是敏感的。因此，针对一个特定的k值运行多次k-mean分析是非常重要的，以确保聚类结果具有整体上最小的WSS。
除了欧几里得距离，还可以用曼哈顿距离(Mantattan distance)来分析聚类，此时，使用中位数(median)作为质心会比使用均值作为质心更好。

K-mean聚类算法适用于可以通过具有测量意义的数值属性来描述的对象。(区间和比率属性也是适用的)
但是，k-mean并不能很好地处理分类变量(categorical variable)。
此时，k-mode算法便可以作为针对分类变量地聚类方法使用了。比如，(a, b, c, d) 到 (d, d, d, d)之间距离是3，k-mode能感知得到。
有时候将分类变量转化为数值变量会更好。比如，{hot, warm, cold} -> {1, 0, -1}

k-mean 在以下情况表现不佳：