机器学习进阶-聚类

本文介绍了聚类的基本概念和重要性,探讨了闵可夫斯基距离、杰卡德相似系数等相似度度量。重点讲述了K-means算法的敏感性和应用,包括对噪声的处理、初值选择以及PCA降维的应用。同时,讨论了聚类效果的评价指标,如均一性、完整性和轮廓系数。还提到了层次聚类的两种策略:凝聚的层次聚类(AGNES)和分裂的层次聚类(DIANA)。最后,文章提及了密度聚类算法DBSCAN,解释了其核心对象、密度可达性的概念,并指出其在处理噪声数据上的优势。
摘要由CSDN通过智能技术生成

聚类

聚类通过样本之间的相似性

理解相似度度量

聚类就是对大量位置标注的数据集,按照数据的内在相似性将数据集划分为多个类别,使类内部相似度最大。

闵可夫斯基距离/欧氏距离

杰卡德相似系数

预先相似度

聚类基本思想:对于给定的类别数目k 首先给出初始划粉,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都较前一次好。

K-means 算法也被称为k均值,算法步骤 

kmeans本身对噪声很敏感,不能过滤噪声

算法对初值很敏感,找到初值作为簇中心,簇中心选取时选择各中心之间的距离比较大,概率化的选择

高维时先用PCA降维,先过滤噪声 然后再将数据喂给算法 

将噪声看做小类,将正常数据看做大类,将噪声剔除问题转换成不平衡数据的分类问题

kmeans也存在梯度下降时类似问题可能会震荡,损失值反复横跳

损失函数、代价函数

聚类的衡量指标 均一性:一个簇中只包含一个类别的样本,则满足均一性

                               完整性:同类别样本被归类到相同簇中,则满足完整性

                                V-measure 均一性和完整性加权平均

轮廓系数 计算样本到同簇其他像本的平均距离,距离越小,说明样本越应该被聚类到该簇,将该距离成为样本的簇内不相似度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值