其他聚类算法

最新推荐文章于 2024-08-21 09:04:49 发布

Ylimevoli

最新推荐文章于 2024-08-21 09:04:49 发布

阅读量126

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45606655/article/details/104188617

版权

聚类2

上篇文章介绍了聚类算法中基本的k均值聚类算法，然而还有很多种其他的聚类算法

密度聚类（DBSCAN）

这种方法的聚类不是以方差最小为衡量标准，而是遵循一个原则，“兄弟的兄弟也是兄弟”，也就是加入A与B距离很近，B与C距离很近，就算A与C距离较远，ABC也是属于同一个簇。这里定义

核心对象：若 $x_j$ 的 $\epsilon -$ 邻域至少包含 $M i n P t s$ 个样本，即 $|N_{\epsilon}(x_j)|\geq MinPts$ ，则 $x_j$ 是一个核心对象

算法步骤：
1. 找出数据集中所有的核心对象构成集合 $H$
2. 随机在 $H$ 选取一个核心对象 $x_j$ ，并加入队列 $Q$ 中，初始化簇集合 $\Gamma=\emptyset$
3. 从队列 $Q$ 中取出队首元素$ q $，如果$ q $是核心对象，首先将$ q $从$ H $中去除，其次将$ q $的$ \epsilon - $邻域里的数据$ N_{\epsilon}(q) $加入$ Q $，并将该数据并入集合$ \Gamma $中，当然$ \Gamma$中的元素需互异
4. 若队列 $Q$ 不空，则重复步骤3，若队列 $Q$ 空了，则将 $\Gamma$ 生成簇 $C_k$ ，并重复步骤2，直至 $H$ 为空
5. 最终没有归入任何簇的数据视为噪声样本
有点像从特定点开始的深度优先搜索

密度聚类对噪声点不敏感，并且可以形成不同的形状的簇
```
from numpy import *
import matplotlib.pyplot as plt

def loadDataSet(fileName):
    dataSet = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float,curLine)
        dataSet.append(list(fltLine))
    return mat(dataSet)

def dist(vecA,vecB):
    return sqrt(sum(power(vecA-vecB,2)))

def DBSCAN(dataSet,k,epsilon,MinPts):
    H=[]; k=1; C=[] #H核心对象序列，C储存簇内的点
    G = set([tuple(i) for i in dataSet.tolist()])
    for data in dataSet: #步骤1
        if len([i for i in dataSet  if dist(data,i) < epsilon]) >= MinPts:
            H.append(tuple(data.tolist()[0]))#找出所有核心序列 步骤1
    while len(H) > 0:
        Gold = G 
        o = H[random.randint(0,len(H))] #步骤2
        temp = set([]); temp.add(o)
        G = G - temp #1 同下的2，这个操作是为了避免在队列中加入之前已经遍历过的点
        Q = []; Q.append(tuple(o)) #步骤2
        while len(Q) > 0:
            q = Q[0]  #步骤3
            Nq = [i.tolist()[0] for i in dataSet if dist(i,q) < epsilon]
            if len(Nq) >= MinPts: #如果是核心对象
                H.remove(q) #在核心序列取出该点
                S = G & set([tuple(i) for i in Nq]) #S的点是没有遍历过的点
                Q += list(S)
                G = G - S #2 
            Q.remove(q) #步骤3
        k = k + 1 
        Ck = list(Gold-G)
        C.append(Ck)
    return C
```
层次聚类

层次聚类有”自底向上“的聚合策略和“自顶向下”的分拆策略。我们来看看自底向上的聚合策略。就是一开始每个样本属于一个簇，每次找出距离最近的簇并合并这两个簇，待最终的簇数量为k。这里什么是簇的距离呢？

定义两个簇的最短距离 $d_{min}(C_i,C_j)=min_{x\in C_i,z\in C_j}dist(x,z)$ ，即两个簇之间的最近的样本的距离

算法步骤：
1. 每个样本归为各自一个簇 $C_j=$ { $x_j$ }
2. 计算簇距离矩阵 $M$ ， $M(i,j)=d_{min}(C_i,C_j)$ ，每个元素为第i个簇与第j个簇的最短距离
3. 找出距离最近的两个簇 $C_a$ 和 $C_b$ ，合并两个簇 $C_a=C_a\cup C_b$ ，并将位于b后的簇的编号-1
4. 更新距离矩阵，即删除第b行和第b列，并重新计算其他簇到 $C_a$ 的距离
5. 重复步骤3，直至最终的簇的数量符合要求
最终会形成一种层次结构

Ylimevoli

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
其他聚类算法

聚类2上篇文章介绍了聚类算法中基本的k均值聚类算法，然而还有很多种其他的聚类算法密度聚类（DBSCAN）这种方法的聚类不是以方差最小为衡量标准，而是遵循一个原则，“兄弟的兄弟也是兄弟”，也就是加入A与B距离很近，B与C距离很近，就算A与C距离较远，ABC也是属于同一个簇。这里定义核心对象：若xjx_jxj的ϵ−\epsilon -ϵ−邻域至少包含MinPtsMinPtsMinPts个...
复制链接

扫一扫