数据挖掘之聚类分析

聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。

与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。

聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将它们划分为若干组,划分的原则是组内距离最小化,而组间距离最大化。

聚类分析之前将数值大都为0的变量和相关性较高的变量删除掉。然后通过主成分分析变换得到没有相关性的主成分值。

常用聚类分析算法

算法名称 算法描述
K-Means

K-均值聚类也叫快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。

该算法原理简单并便于处理大量数据。

K-中心点 K-均值算法对异常值是敏感性的,而K-中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心
系统聚类

系统聚类也叫多层次聚类,分类的单位由高到低呈树形结构,且所处的位置越低,其过包含的对象就越少,但这些对象间的共同特征越多。

该聚类方法只适合在小数据量时使用,数据量大时速度回非常慢。

聚类分析结果评价

1、purity评价法

计算正确聚类数占总数的比例。

2、RI评价法

RI = \tfrac{R+W}{R+M+D+W}

R为被聚在一类的两个对象被正确分类了;W指不应该被聚在一类的两个对象被正确分开了;M指不应该被聚在一类的对象被错误地放在了一类;D指不应该分开的对象被错误地分开了。

3、F值评价法

基于RI评价法衍生出的一个方法,

  • 16
    点赞
  • 165
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值