聚类分析学习笔记(一)

这篇学习笔记介绍了聚类分析的基本概念,重点探讨了基于原型的聚类,包括K-means算法、学习向量量化(LVQ)和高斯混合聚类。K-means通过迭代优化寻找簇的均值,LVQ利用监督信息辅助聚类,高斯混合聚类则采用概率模型表达聚类原型。
摘要由CSDN通过智能技术生成

聚类分析学习笔记(一)

此笔记参考了数据挖掘导论、周志华的机器学习以及机器学习实战三本书

1.概要

聚类分析的作用是根据在数据中发现的描述对象及其关系的信息,将数据分组(簇)。组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间的差别越大,则聚类就越好。

因为聚类分析是无标记学习,所以是一种非监督学习。聚类分好几种类型,本文中主要涉及基于原型的聚类,基于层次的聚类以及基于密度的聚类。

2.基于原型的聚类

假设聚类结构能通过一组原型刻画。其中簇是对象的集合,其中每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近(或者更加相似)。我们通常把基于原型的簇看做基于中心的簇。基于原型的聚类通常步骤是:算法先对原型进行初始化,然后对原型进行迭代更新求解。不同的原型聚类算法会采用不同的原型表达方式或不同的求解方式等等。

2.1 K-means算法

K-means是一种基于距离的迭代式算法。它将n个观察实例分类到k个聚类中,以使得每个观察实例距离它所在的聚类的中心点比其他的聚类中心点的距离更小。

给定样本D={x1,x2,x3,…,xm},K-means算法针对聚类所得划分簇C={C1,C2,…,Ck}最小化平方误差:

E=i=1kxεCi
好的,我知道了,下面是我的回答: 聚类算法是一种无监督学习算法,它可以将数据集中的数据按照某种规则进行分组,使得同一组内的数据相似度较高,不同组之间的数据相似度较低。聚类算法可以帮助我们对数据进行分类、分析和理解,同时也可以为其他机器学习任务提供数据预处理和特征提取的支持。 聚类算法的基本流程包括:确定聚类算法的目标函数、选择相似度度量方法、选择聚类算法、确定聚类的数量、进行聚类操作以及评估聚类效果。常见的聚类算法包括K-Means算法、层次聚类算法、密度聚类算法等。 K-Means算法是一种基于距离的聚类算法,它的基本思想是将数据集中的数据划分为K个簇,使得同一簇内的数据相似度较高,不同簇之间的数据相似度较低。K-Means算法的优点是计算复杂度较低,容易实现,但是需要预先指定簇的数量和初始聚类中心。 层次聚类算法是一种基于相似度的聚类算法,它的基本思想是不断合并数据集中相似度最高的数据,直到所有数据都被合并为一个簇或达到预先设定的簇的数量。层次聚类算法的优点是不需要预先指定簇的数量和初始聚类中心,但是计算复杂度较高。 密度聚类算法是一种基于密度的聚类算法,它的基本思想是将数据集中的数据划分为若干个密度相连的簇,不同簇之间的密度差距较大。密度聚类算法的优点是可以发现任意形状的簇,但是对于不同密度的簇分割效果不佳。 以上是聚类算法的基础知识,希望能对您有所帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值