聚类分析学习笔记(一)

最新推荐文章于 2022-07-05 03:00:00 发布

weq27

最新推荐文章于 2022-07-05 03:00:00 发布

阅读量1.1k

点赞数

分类专栏：机器学习数据挖掘文章标签：机器学习数据挖掘学习笔记聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weq27/article/details/69061347

版权

这篇学习笔记介绍了聚类分析的基本概念，重点探讨了基于原型的聚类，包括K-means算法、学习向量量化（LVQ）和高斯混合聚类。K-means通过迭代优化寻找簇的均值，LVQ利用监督信息辅助聚类，高斯混合聚类则采用概率模型表达聚类原型。

摘要由CSDN通过智能技术生成

聚类分析学习笔记(一)

此笔记参考了数据挖掘导论、周志华的机器学习以及机器学习实战三本书

1.概要

聚类分析的作用是根据在数据中发现的描述对象及其关系的信息，将数据分组（簇）。组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内的相似性越大，组间的差别越大，则聚类就越好。

因为聚类分析是无标记学习，所以是一种非监督学习。聚类分好几种类型，本文中主要涉及基于原型的聚类，基于层次的聚类以及基于密度的聚类。

2.基于原型的聚类

假设聚类结构能通过一组原型刻画。其中簇是对象的集合，其中每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近（或者更加相似）。我们通常把基于原型的簇看做基于中心的簇。基于原型的聚类通常步骤是：算法先对原型进行初始化，然后对原型进行迭代更新求解。不同的原型聚类算法会采用不同的原型表达方式或不同的求解方式等等。

2.1 K-means算法

K-means是一种基于距离的迭代式算法。它将n个观察实例分类到k个聚类中，以使得每个观察实例距离它所在的聚类的中心点比其他的聚类中心点的距离更小。

给定样本D={x1,x2,x3,…,xm}，K-means算法针对聚类所得划分簇C={C1,C2,…,Ck}最小化平方误差：

E = \sum i = 1 k \sum x ε C i

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。