机器学习进阶-聚类

最新推荐文章于 2024-09-06 15:00:00 发布

yzy_1117

最新推荐文章于 2024-09-06 15:00:00 发布

阅读量125

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yzy_1117/article/details/120813682

版权

本文介绍了聚类的基本概念和重要性，探讨了闵可夫斯基距离、杰卡德相似系数等相似度度量。重点讲述了K-means算法的敏感性和应用，包括对噪声的处理、初值选择以及PCA降维的应用。同时，讨论了聚类效果的评价指标，如均一性、完整性和轮廓系数。还提到了层次聚类的两种策略：凝聚的层次聚类（AGNES）和分裂的层次聚类（DIANA）。最后，文章提及了密度聚类算法DBSCAN，解释了其核心对象、密度可达性的概念，并指出其在处理噪声数据上的优势。

摘要由CSDN通过智能技术生成

聚类

聚类通过样本之间的相似性

理解相似度度量

聚类就是对大量位置标注的数据集，按照数据的内在相似性将数据集划分为多个类别，使类内部相似度最大。

闵可夫斯基距离/欧氏距离

杰卡德相似系数

预先相似度

聚类基本思想：对于给定的类别数目k 首先给出初始划粉，通过迭代改变样本和簇的隶属关系，使得每一次改进之后的划分方案都较前一次好。

K-means 算法也被称为k均值，算法步骤

kmeans本身对噪声很敏感，不能过滤噪声

算法对初值很敏感，找到初值作为簇中心，簇中心选取时选择各中心之间的距离比较大，概率化的选择

高维时先用PCA降维，先过滤噪声然后再将数据喂给算法

将噪声看做小类，将正常数据看做大类，将噪声剔除问题转换成不平衡数据的分类问题

kmeans也存在梯度下降时类似问题可能会震荡，损失值反复横跳

损失函数、代价函数

聚类的衡量指标均一性：一个簇中只包含一个类别的样本，则满足均一性

完整性：同类别样本被归类到相同簇中，则满足完整性

V-measure 均一性和完整性加权平均

轮廓系数计算样本到同簇其他像本的平均距离，距离越小，说明样本越应该被聚类到该簇，将该距离成为样本的簇内不相似度。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习进阶-聚类

聚类聚类通过样本之间的相似性理解相似度度量聚类就是对大量位置标注的数据集，按照数据的内在相似性将数据集划分为多个类别，使类内部相似度最大。闵可夫斯基距离/欧氏距离杰卡德相似系数预先相似度...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。