李航《统计学习方法》——聚类方法

最新推荐文章于 2022-11-27 21:00:10 发布

秋男不吃牛肉豆制品牛奶小麦

最新推荐文章于 2022-11-27 21:00:10 发布

阅读量819

点赞数

分类专栏：机器学习统计学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43766770/article/details/90399541

版权

机器学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

统计学习

6 篇文章 0 订阅

订阅专栏

聚类方法有很多，下面叙述最常用的两种聚类方法：层次聚类和k均值聚类。层次聚类又有聚合和分裂两种方法。聚合法开始将每个样本各自分到一个类；之后将距离最近的两类合并，建立一个新的类；之后将已有类别中相聚最远的样本分到两个新的类，重复此操作直到满足停止条件，得到层次化的类别。

14.1 聚类的基本概念

14.1.1 相似度或距离

聚类的对象是观测数据或样本集合。假设有 $n$ 个样本，每个样本有 $m$ 个属性的特征向量组成。样本集合表示为: $X=[x_{ij}]_{m\times n}=\left[ \begin{matrix} x_{11} & x_{12} & \cdots & x_{1n} \\ x_{21} & x_{22} & \cdots & x_{2n}\\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{mn} \end{matrix} \right]$ 元素 $x_{ij}$ 表示第 $i$ 个样本第 $j$ 个属性， $i=1,2,\cdots,n,\ \ j=1,2,\cdots,m$ .
聚类的核心概念是相似度或距离，有多种相似度或距离的定义。因为相似度直接影响聚类的结果，所以其选择是聚类的根本问题。下面介绍几种常用的相似度定义：

闵可夫斯基距离
在聚类中，可以将样本集合想象成向量空间中的点，可以以空间的距离表示样本之间的相似度。
定义14.1 给定样本集合 $X$ ， $X$ 是 $m$ 维实数向量空间 $R^m$ 中点的集合，其中 $x_i,x_j \in X$ ， $x_i=\lbrace x_{1i},x_{2i},\cdots,x_{mi} \rbrace^T$ ， $x_j=\lbrace x_{1j},x_{2j},\cdots,x_{mj} \rbrace^T$ ，样本 $x_i$ 与 $x_j$ 之间的闵可夫斯基距离定义为： $d_{ij}=(\sum_{k=1}^m|x_{ki}-x_{kj}|^p)^{\frac{1}{p}}$ 这里 $p\geq1$ 。当 $p = 2$ 时称为欧式距离，即 $d_{ij}=(\sum_{k=1}^m|x_{ki}-x_{kj}|^2)^{\frac{1}{2}}$ 当 $p = 1$ 时称为曼哈顿距离，即 $d_{ij}=\sum_{i=1}^m|x_{ki}-x_{kj}|$ 当 $p=\infin$ 时称为切比雪夫距离，取各个坐标差点最大值，即 $d_{ij}=max_k|x_{ki}-x_{kj}|$
马哈拉诺比斯距离
马哈拉诺比斯距离，简称马氏距离，是另一种常用的相似度。考虑各个分量(特征)之间的相关性并与各个分量的尺度无关。马哈拉诺比斯距离越大相似度越小，距离越小相似度越大。
定义14.2 给定一个样本集合 $X$ ， $X=(x_{ij}){m\times n}$ ，其协方差矩阵记作 $S$ 。样本 $x_i$ 与样本 $x_j$ 之间的马哈拉诺比斯距离 $d_{ij}$ 定义为 $d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac{1}{2}}$ 其中， $x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T，x_j=(x_{1j},x_{2j},\cdots，x_{mj})^T$ 当 $S$ 为单位矩阵时，即样本数据的各个分量互相独立且各个分量的方差为1时，马氏距离就是欧氏距离，可以将马氏距离看作是欧氏距离的推广。
相关系数
样本之间的相似度也可以用相关系数来表示。相关系数的绝对值越接近于1，表示样本越相似；越接近0，表示样本越不相似。
定义14.3 样本 $x_i$ 与样本 $x_j$ 之间的相关系数定义为 $r_{ij}=\frac{\sum_{k=1}^m(x_{ki}-\overline x_i)(x_{kj}-\overline x_j)}{[\sum_{k=1}^m(x_{ki}-\overline x_i)^2\sum_{i=1}^m(x_{kj}-\overline x_j)^2]^\frac{1}{2}}$ 其中， $\overline x_i=\frac{1}{m}\sum_{k=1}^mx_{ki}，\overline x_j=\frac{1}{m}\sum_{k=1}^mx_{kj}$
夹角余弦
样本之间的相似度也可以用夹角余弦来表示，夹角余弦越接近于1，表示样本越相似；越接近于0，表示样本越不相似。
定义14.4 样本 $x_i$ 与样本 $x_j$ 之间的余弦夹角定义为 $s_{ij}=\frac{\sum_{k=1}^mx_{ki}x_{kj}}{[\sum_{k=1}^mx_{ki}^2\sum_{k=1}^mx_{kj}^2]^{\frac{1}{2}}}$

14.1.2 类或簇

通过聚类得到的类或簇，本质是样本的子集。如果一个聚类方法假定一个样本只能属于一个类，或类的交集为空集，那么该方法称为硬聚类方法。否则，如果一个样本可以属于多个类，或类的交集不为空集，那么该方法称为软聚类方法。
用 $G$ 表示类或簇，用 $x_i$ , $x_j$ 表示类中的样本，用 $n_G$ 表示 $G$ 中样本的个数，用 $d_{ij}$ 表示样本 $x_i$ 与样本 $x_j$ 之间的距离。
定义14.5 设 $T$ 为给定的正数，若集合 $G$ 中任意两个样本 $x_i$ ， $x_j$ ，有 $d_{ij}\leq T$ 则称 $G$ 为一个类或簇。
定义14.6 设 $T$ 为给定的正数，若集合 $G$ 的任意样本 $x_i$ ，一定存在 $G$ 中的另一个样本 $x_j$ ，使得 $d_{ij}\leq T$ 则称 $G$ 为一个类或簇。
定义14.7 设 $T$ 为给定的正数，若集合 $G$ 的任意样本 $x_i$ ， $G$ 中的另一个样本 $x_j$ 满足 $\frac{1}{n_G-1}\sum_{x_j\in G}d_{ij}\leq T$ 其中 $n_G$ 为 $G$ 样本的个数，则称 $G$ 为一个类或簇。
定义14.8 设 $T$ 和 $V$ 为给定的两个正数，如果集合 $G$ 中的任意两个样本 $x_i$ ， $x_j$ 的距离 $d_{ij}$ 满足 $\frac{1}{n_G(n_G-1)}\sum_{x_i\in G}\sum_{x_j\in G}d_{ij}\leq T$ $d_{ij}\leq T$ 则称 $G$ 为一个类或簇。
类的特征可以通过不同角度来刻画，常用的特征有下面三种：
（1）类的均值 $\overline x_G$ ，由称为类的中心 $\overline x_G=\frac{1}{n_G}\sum_{i=1}^{n_G}x_i$ 式中 $n_G$ 是类 $G$ 的样本个数。
（2）类的直径 $D_G$
类的直径 $D_G$ 是类中任意两个样本之间的最大距离，即 $D_G=max_{x_i,x_j\in G}d_{ij}$
（3）类的样本散布矩阵 $A_G$ 与样本协方差矩阵 $S_G$
类的散布矩阵 $A_G$
$A_G=\sum_{i=1}^{n_G}(x_i-\overline x_G)(x_i-\overline x_G)^T$
样本协方差矩阵 $S_G$ 为 $S_G=\frac{1}{m-1}A_G=\frac{1}{m-1}\sum_{i=1}^{n_G}(x_i-\overline x_G)(x_i-\overline x_G)^T$ 其中 $m$ 为样本的维数(样本属性的个数)。

秋男不吃牛肉豆制品牛奶小麦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
李航《统计学习方法》——聚类方法

聚类方法有很多，下面叙述最常用的两种聚类方法：层次聚类和k均值聚类。层次聚类又有聚合和分裂两种方法。聚合法开始将每个样本各自分到一个类；之后将距离最近的两类合并，建立一个新的类；之后将已有类别中相聚最远的样本分到两个新的类，重复此操作直到满足停止条件，得到层次化的类别。14.1 聚类的基本概念14.1.1 相似度或距离聚类的对象是观测数据或样本集合。...
复制链接

扫一扫

专栏目录