机器学习 --- DBSCAN

简介
DBSCAN是属于机器学习里面的非监督学习,与 k-means一样是一种聚类算法。不过k-means算法是基于距离的聚类算法,基于距离的聚类算法的聚类结果是球状的簇,当数据中的聚类结果是非球状结构时,基于距离的聚类算法的效果并不好,然而,基于密度的聚类算法从样本的密度角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果,它可以发现任意形状的簇。
DBSCAN (density-based spatial clustering of applications with noise),即“具有噪声的基于密度的空间聚类应用”。是一种典型的基于密度的聚类算法

在这里插入图片描述

DBSCAN算法流程

# encoding=utf8
import numpy as np
import random
from copy import copy
from collections import deque


# 寻找eps邻域内的点
def findNeighbor(j, X, eps):
    return {p for p in range(X.shape[0]) if np.linalg.norm(X[j] - X[p]) <= eps}


# dbscan算法
def dbscan(X, eps, min_Pts):
    """
    input:X(ndarray):样本数据
          eps(float):eps邻域半径
          min_Pts(int):eps邻域内最少点个数
    output:cluster(list):聚类结果
    """
    # ********* Begin *********#

    # 初始化核心对象集合
    core_objects = {i for i in range(len(X)) if len(findNeighbor(i, X, eps)) >= min_Pts}

    # 初始化聚类簇数
    k = 0

    # 初始化未访问的样本集合
    not_visited = set(range(len(X)))

    # 初始化聚类结果
    cluster = np.zeros(len(X))

    while len(core_objects) != 0:
        old_not_visited = copy(not_visited)
        # 初始化聚类簇队列
        o = random.choice(list(core_objects))
        queue = deque()
        queue.append(o)
        not_visited.remove(o)

        while len(queue) != 0:
            q = queue.popleft()
            neighbor_list = findNeighbor(q, X, eps)
            if len(neighbor_list) >= min_Pts:
                # 寻找在邻域中并没被访问过的点
                delta = neighbor_list & not_visited
                for element in delta:
                    queue.append(element)
                    not_visited.remove(element)

        k += 1
        this_class = old_not_visited - not_visited
        cluster[list(this_class)] = k
        core_objects = core_objects - this_class

    # ********* End *********#
    return cluster

sklearn中的DBSCAN

# encoding=utf8
from sklearn.cluster import DBSCAN


def data_cluster(data):
    """
    input: data(ndarray) :数据
    output: result(ndarray):聚类结果
    """
    # ********* Begin *********#
    dbscan = DBSCAN(eps=0.5, min_samples=10)
    result = dbscan.fit_predict(data)
    return result
    # ********* End *********#



















感谢大家的支持!!!!!!!!!!!!!!!!

  • 12
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值