应用机器学习（一）：聚类分析

最新推荐文章于 2024-08-31 22:47:58 发布

Goodsta

最新推荐文章于 2024-08-31 22:47:58 发布

阅读量5.1k

点赞数 2

文章标签：机器学习

本文链接：https://blog.csdn.net/wong2016/article/details/70188187

版权

本文介绍了聚类分析的基本概念、算法实现和常见应用。聚类分析是一种无监督学习方法，旨在将数据集分成相似对象的组。文章通过实例探讨了层次聚类、K-均值算法以及聚类在图像分析、人口结构研究和房价模型等方面的应用。通过对数据的聚类，可以发现数据的内在结构和模式。

摘要由CSDN通过智能技术生成

聚类分析

聚类分析(Cluster analysis)，也称为聚类(Clustering)，目的是将一个对象(object) 集分成若干组，使得在相同组（也称为类(Clusters)）的象相比于不同组中的对象更相似。聚类分析被广泛地应用于数据挖掘中，特别是初步的探索性数据分析。例如，图1 中的左图是二维散点图，根据相似度聚成三类，右图用红绿蓝三种颜色表示聚类结果。

图1 二维散点聚类图

图 1 二维散点聚类图

聚类技术在图像分析、信息检索、生物信息、数据压缩和计算机图形学等领域被广泛地应用。下面以图形例举聚类的常见应用：

这里写图片描述

图 2 图像分割

这里写图片描述

图 3 人类人口结构

这里写图片描述

图 4 图像压缩

定义

一般地，将一个“类” 定义为一个数据对象集。而对于不同的类型，“类” 的概念有所不同，因此，重要的是对不同类模型的理解。常见的类模型有以下几种：

连接模型 : 例如，基于距离连接的层次聚类法(hierarchical clustering)；
中心模型： 例如，k-means法使用一个类均值代表一个类；
分布模型： 例如，用概率分布代表一个类，典型的方法有基于EM算法的多元正态分布。
“聚类”实际上是给出一个类的集合，通常包括数据集的所有对象。同时，它可能也指出了类之间的关系。例如，层次聚类法给出了类之间的层次结构。按照类结构特点，聚类也可以大致分为两种类型：
- Hard clustering : 每一个对象确定地属于某一个类
- Soft clustering : 每一个对象在某种程度上属于某个类，这里的“某种程度”，通常用概率表示。下面介绍三种常见的聚类算法。
层次聚类

层次聚类法，构建一个类的层次结构，产生一个从根到叶的树形结构，称为系统树图(dendrogram)。层次聚类的策略通常分为两种，即：

Agglomerative : 自下而上聚类

每一个对象初始时自成一类，然后递归地合并两个具有最短类间距的类成一个新类，从下往上生成类层次。

Divisive : 自上而下聚类

所有对象初始时组成一个类，然后递归地将上层类按最大类间距分解成两个新类，从上往下生成类层次。最后，用户可以根据类层次结构自定义分类结果。图5是依两种策略的聚类过程示意图：

这里写图片描述

图 5 层次聚类示意图

`k-means`聚类

定义

假设由 $n$ 个观测点组成的集合 $(x_1, x_2, \dots, x_n)$ ，不妨设每个观测点是一个 $d$ 维实向量。k-means聚类的目标是，将这 $n$ 个观测分割进 $K$ 个集 $S = \{S_1, S_2, \dots, S_K\}$ ，使得类内平方和 $WCSS$ 最小。这里，我们定义类内平方和为类中的点与该类中心的距离和，即

W C S S = \sum k = 1 K \sum x \in S k | | x - μ k | | 2

$WCSS = \sum\limits_{k=1}^K \sum\limits_{x\in S_k} ||x-\mu_k||^2$
其中，

μk,k=1,2,…,K $\mu_k,\,k=1,2,\dots,K$ 是各类的中心，其值为该类中的观测点的均值。那么， k-means聚类的目标是找到一个分割

S $S$ ，使得

arg min S \sum k = 1 K \sum x \in S k | | x - μ k | | 2

$\mathop{\arg\min}_{S} \sum\limits_{k=1}^K \sum\limits_{x\in S_k} ||x-\mu_k||^2$

算法实现

k-means聚类算法由以下三步组成：

Initial step : 从数据集随机地选择 $K$ 个观测，分别作为 $K$ 个类的中心，其值记为 $\mu_1, \mu_2, \dots, \mu_K$ 。依次将 $n$ 个观测分配到距离它们最近的类中。 $K$ 个类中心自然在它们各自代表的类中。设 $\gamma_{ik}\in \{0, 1\}$ 表示观测 $x_i$ 分配到类的情况， $i=1,2,\dots,n;\,k=1,2,\dots,K$ . 显然， ∑k=1Kγik=1