机器学习笔记（六）：聚类算法

最新推荐文章于 2024-07-02 10:45:45 发布

xiaoxy97

最新推荐文章于 2024-07-02 10:45:45 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习笔记机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoxy97/article/details/82834346

版权

本文详细介绍了聚类算法，包括定义、与分类算法的区别、样本相似度度量、基本思想以及衡量指标。重点讲解了KMeans算法及其改进版，如KMeans++、Mini Batch KMeans等。此外，还探讨了层次聚类和密度聚类，如DBSCAN，以及聚类算法的优缺点和应用场景。

摘要由CSDN通过智能技术生成

一、聚类算法总括

1.1 定义

对大量未标注的数据集按数据内部存在的数据特征划分为多个不同类别，使类别内数据比较相似，类别间数据相似度比较小。

1.2 和分类算法区别

分类算法：有监督学习

聚类算法：无监督学习

1.3 样本相似度度量

1.3.1 闵可夫斯基距离(Minkowski)

a. p=1：曼哈顿距离

b. p=2：欧氏距离（常用）

c. p为无穷大：切比雪夫距离

1.3.2 标准化欧氏距离

1.3.3 夹角余弦相似度（值越大代表越相似）

1.3.4 KL距离（相对熵）（知道一下就行了，一般不用）

1.3.5 杰卡德相似系数（Jaccard）（常用，适合比较稀疏的特征，如文本特征）

1.3.6 Pearson相关系数

1.4 聚类基本思想

给定一个有M个对象的数据集，构建一个具有k个簇（类别）的模型。首先给定初始划分，迭代改变样本和簇的隶属关系，使得每次迭代后的划分都比上一次的好。划分条件：①每个簇至少包含一个对象；②每个对象属于且仅属于一个簇。

1.5 聚类算法的衡量指标（只在训练时可以看看，用得不多）

1.5.1 均一性（一个簇中只包含一个类别的样本），每个聚簇中正确分类的样本数占该聚簇总样本书的比例和

1.5.2 完整性（同类别样本被归类到相同簇中），每个聚簇中正确分类的样本数占该类型的总样本数比例的和

1.5.3 V-measure：均一性和完整性的加权平均

1.5.4 Rand index（兰德指数），取值范围[0, 1]，值越大意味着聚类结果与真实情况越吻合

1.5.5 调整兰德指数（ARI），取值范围[-1,

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记（六）：聚类算法

一、聚类算法总括1.1 定义对大量未标注的数据集按数据内部存在的数据特征划分为多个不同类别，使类别内数据比较相似，类别间数据相似度比较小。1.2 和分类算法区别分类算法：有监督学习聚类算法：无监督学习1.3 样本相似度度量1.3.1 闵可夫斯基距离(Minkowski)a. p=1：曼哈顿距离b. p=2：欧氏距离（常用）c. p为无穷大：切比雪...
复制链接

扫一扫

专栏目录

xiaoxy97 CSDN认证博客专家 CSDN认证企业博客

码龄7年

33: 原创

14万+: 周排名

37万+: 总排名

8万+: 访问

: 等级

834: 积分

15: 粉丝

43: 获赞

11: 评论

145: 收藏

私信

关注

分类专栏

python 18篇
NLP 7篇
机器学习 10篇
机器学习笔记 7篇
数据结构与算法 3篇
深度学习 2篇
深度学习笔记 2篇
面试 1篇
MySQL 1篇
后端 3篇
算法 1篇
数据库 2篇

最新评论

pip默认镜像地址
Edwin-Li: 虽然它慢，但好歹有阿，谢谢！
pip默认镜像地址
梅干菜扣肉: 巧了，我也是改了默认源，安装的时候找不到版本又得用默认源
cypher相关
一最安: 你好，看了你的博文感觉十分受用，有个问题想要请教，请问如何删除知识图谱中重复的节点呢？https://ask.csdn.net/questions/7604510?spm=1001.2014.3001.5501 请赐教，不胜感激。
pip默认镜像地址
一只会飞的旺旺: 大佬的文章让我受益匪浅,感谢博主！
pip install pyltp报错解决办法
siberia0015: 感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。