机器学习Day10:聚类

最新推荐文章于 2024-08-18 23:54:03 发布

一飞学编程

最新推荐文章于 2024-08-18 23:54:03 发布

阅读量1.1k

点赞数 26

文章标签：机器学习聚类人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52108189/article/details/140134093

版权

概念

聚类是按照某个特定标准把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性尽可能大

聚类的过程

数据准备：特征标准化和降维
特征选择：从最初的特征中选择最有效的特征，并将其存储在向量中
特征提取：通过对选择的特征进行转换形成新的突出特征
聚类：基于某种距离函数进行相似度度量，获取簇
聚类结果评估：分析聚类结果，如距离误差和等

聚类方法

1.划分类聚类方法
代表：k-means算法
基本思想：对于给定的类别数据k首先给出初始划分，通过迭代改变样本和簇的隶属关系，使得每一次改进后的划分方法都比前一次更好
优点：简单快速；当簇近似于高斯分布时效果好
缺点：在簇的平均值可被定义时才能使用；对初值敏感
在这里插入图片描述

2.层次聚类方法：对给定的数据集进行层次的分解，直到满足某种条件为止
如下图所示，由于a、b某特征有相似之处，将他们聚类一类，以此类推
特征：对噪声敏感
在这里插入图片描述

3.基于密度的聚类方法
在这里插入图片描述

典型算法：DBSCAN算法
DBSCAN算法的流程
特点：抗噪效果好；性能一般

聚类算法效果评判

均一性：聚类结果的一致性或者稳定性
完整性：聚类结果与真实类别或标签之间的一致性
V-measure:综合考虑了均一性和完整性
ARI：比较了聚类结果与真实类别之间的一致性，考虑了分类中的随机性因素
AMI：聚类结果与真实类别之间的一致性，同时考虑了类别分布的随机性
轮廓系数：结合了聚类的紧密度（密度）和分离度（分散度）

一飞学编程

关注

26
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
机器学习Day10:聚类

成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性尽可能大。如下图所示，由于a、b某特征有相似之处，将他们聚类一类，以此类推。改变样本和簇的隶属关系，使得每一次改进后的划分方法都比前一次。当簇近似于高斯分布时效果好。基本思想：对于给定的类别数据k首先给出。聚类是按照某个特定标准把一个数据集。典型算法：DBSCAN算法。代表：k-means算法。可被定义时才能使用；，直到满足某种条件为止。：对给定的数据集进行。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。