数据挖掘之聚类分析

最新推荐文章于 2024-06-03 12:10:25 发布

zjlamp

最新推荐文章于 2024-06-03 12:10:25 发布

阅读量3.1w

点赞数 16

分类专栏：数据挖掘文章标签：聚类分析数据挖掘

本文链接：https://blog.csdn.net/zjlamp/article/details/81603596

版权

聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。

与分类模型需要使用有类标记样本构成的训练数据不同，聚类模型可以建立在无类标记的数据上，是一种非监督的学习算法。

聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将它们划分为若干组，划分的原则是组内距离最小化，而组间距离最大化。

聚类分析之前将数值大都为0的变量和相关性较高的变量删除掉。然后通过主成分分析变换得到没有相关性的主成分值。

常用聚类分析算法

算法名称	算法描述
K-Means	K-均值聚类也叫快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。
K-中心点	K-均值算法对异常值是敏感性的，而K-中心点算法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中心
系统聚类	系统聚类也叫多层次聚类，分类的单位由高到低呈树形结构，且所处的位置越低，其过包含的对象就越少，但这些对象间的共同特征越多。该聚类方法只适合在小数据量时使用，数据量大时速度回非常慢。

聚类分析结果评价

1、purity评价法

计算正确聚类数占总数的比例。

2、RI评价法

$RI = \tfrac{R+W}{R+M+D+W}$

R为被聚在一类的两个对象被正确分类了；W指不应该被聚在一类的两个对象被正确分开了；M指不应该被聚在一类的对象被错误地放在了一类；D指不应该分开的对象被错误地分开了。

3、F值评价法

基于RI评价法衍生出的一个方法，

关注

专栏目录