【机器学习06】聚类基本概念

聚类是针对给定的样本,一句他们特征的相似度或距离,将其归并到若干个”类“或”簇“的数据分析问题。

一个类是样本的一个子集。直观上,相似的样本聚集在相同的类,不相似的样本分散在不同的类。

样本之间的相似度或距离起着重要作用。

相似度或距离

聚类的对象是观测数据,或样本集合。假设有n个样本,每个样本由m个属性的特征向量组成。样本集合可以用矩阵X表示:

1. 闵可夫斯基距离(样本 x_i 和 x_j )

d_{ij}=(\sum^m_{k=1}|x_{ki}-x_{kj}|^p)^{\frac{1}{p}}

p=2时为欧氏距离;

p=1时为曼哈顿距离;

p=\infty时为切比雪夫距离:(取各坐标数值差的绝对值的最大值)

d_{ij}=\max_k|x_{ki}-x_{kj}|

2. 马哈拉诺比斯距离 / 马氏距离(样本 x_i 和 x_j )

d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac{1}{2}}

  • S是协方差矩阵。

当S为单位矩阵时,即样本数据的各分量互相独立且各个分量的方差为1时,马氏距离就是欧氏距离。马氏距离是欧式距离的推广。

3. 相关系数

r_{ij}=\frac{\sum^m_{k=1}(x_{ki}-\overline{x}_i)(x_{kj}-\overline{x}_j)}{ [\sum^m_{k=1}(x_{ki}-\overline{x}_i)^2\sum^m_{k=1}(x_{kj}-\overline{x}_j)^2 ]^{\frac{1}{2}}}

4. 夹角余弦(越接近1,越相似)

s_{ij}=\frac{\sum^m_{k=1}x_{ki}x_{kj}}{[\sum^m_{k=1}x_{ki}^2\sum^m_{k=1}x_{kj}^2]^{\frac{1}{2}}}

类或簇 (G)

定义d_{ij}\leq T

(1) 类的均值:\overline{x}_G=\frac{1}{n_G}\sum_{i=1}^{n_G}x_i

(2) 类的直径: 任意两样本之间的最大距离。

(3) 类的样本散步矩阵:A_G=\sum_{i=1}^{n_G}(x_i-\overline{x}_G)(x_i-\overline{x}_G)^T 

(4) 类的样本协方差矩阵:S_G=\frac{1}{m}A_G

  •  类与类之间的距离

    (1)最短距离或单连接:D_{pq}=\min\{d_{ij}|x_i\in G_p,x_j\in G_q\}

        (2)最长距离或完全连接:D_{pq}=\max\{d_{ij}|x_i\in G_p,x_j\in G_q\}

        (3)中心距离:D_{pq}=d_{\overline{x}_p\overline{x}_q}

        (4)平均距离:D_{pq}=\frac{1}{n_pn_q}\sum_{x\in G_p} \sum_{x_j\in G_q}d_{ij}

聚类算法是一种将数据集划分为不同的离散类别的机器学习方法。在硬聚类中,每个数据点只被分配到一个独立的类别中,没有模糊的成员关系。常见的硬聚类算法有K均值聚类、层次聚类和DBSCAN。 1. K均值聚类:K均值聚类是最常用的硬聚类算法之一。它将数据集划分为K个独立的类别,其中K是用户事先指定的。算法首先随机选择K个中心点,然后迭代地将每个数据点分配到离其最近的中心点所对应的类别中,然后更新中心点位置。重复这个过程直到收敛,直到中心点不再改变为止。 2. 层次聚类:层次聚类是一种自底向上或自顶向下的聚类方法,它通过计算数据点之间的相似度或距离来构建一个层次化的聚类树。在自底向上的方法中,每个数据点开始时被认为是一个单独的类别,然后迭代地合并最相似的类别,直到达到预定的停止条件。而在自顶向下的方法中,整个数据集被认为是一个类别,然后递归地将其划分为更小的子类别,直到达到停止条件。 3. DBSCAN:DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法。它通过定义一个数据点的邻域半径和最小邻域内的数据点数量来划分类别。DBSCAN将高密度区域视为类别,可以自动识别任意形状的聚类。该算法还可以标记噪声点,即不属于任何类别的数据点。 这些硬聚类算法在不同的应用场景中都有广泛的应用,可以帮助我们发现数据集中的内在结构和模式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值