01_kmeans/DBSCAN/层次算法概述

居高声自远,非是藉秋风

已于 2024-08-14 17:22:11 修改

阅读量227

点赞数 2

分类专栏：数据挖掘文章标签： python 机器学习聚类

于 2024-08-14 16:21:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44090239/article/details/129494154

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

三大聚类算法kmeans/DBSCAN/层次系列

一、聚类的概念

无监督：没有标签
相似的分到一组
难点：评估参数，调整参数

一、k-means的核心概念

需要指定k值
质心：均值，初始质心获取各维度的平均值
距离的量度：欧式距离

二、k-means的执行流程

首先设置初始质心和k值
通过第一次迭代，围绕初始质心形成k个原型簇
选择每个簇中的平均值作为质心，进行第二次迭代
重复3的流程，直到本次迭代和上次迭代没有区别的时候，停止迭代

三、k-means的优势、劣势

优势：
1. 快速，简单
劣势：
1. k值难确定
2. 依赖初始质心的选择
3. 很难处理不规则的簇，只能处理原型的簇

四、DBSCAN算法基本概念

minPts：密度阈值，需要手动设定
R：半径，需要手动设定
核心对象：在R领域内需要不小于minPts个核心点
边界点：BC因为能和A关联上，但是没有下线能关联，被称为边界点
N ：不能和A进行关联，也不能有下线所以是离群点
噪声点/离群点：从任何一个类簇的点都是不可达的点
DBSCAN算法：适合查找离群点、异常检测

五、DBSCAN算法执行流程

设定参数 R、minPts
标记所有的对象为未访问到
随机获取一点开始查找 R半径内如果大于minPts个对象，这个点就是核心对象
核心对象的所有的对象都继续查找自身R半径的对象，如果大于minPTs个对象，该对象也是核心对象。该核心对象中的所有对象继续查找自身半径R内的所有对象，直到直到边界为止
找到边界之后，C1簇算是已经完成。随机在获取一点继续查找，直到完成
直到最后会剩下找不到的点，成为离群点/噪声点。

二、使用步骤

1.引入库

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下（示例）：

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

总结

提示：这里对文章进行总结：

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

居高声自远,非是藉秋风

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

居高声自远,非是藉秋风 千山万水总是情，赏个一块行不行

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。