聚类分析简介

一、概念

将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在许多应用中,一个簇中的数据对象可以被作为一个整体来对待。

二、聚类分析中的数据类型

假设要聚类的数据集合包含 n 个数据对象,这些数据对象可能表示人,房子,文档,国家等。许多基于内存的聚类算法选择如下两种有代表性的数据结构:

(1)数据矩阵( Data matrix,或称为对象属性结构):它用 p 个变量(也称为属性)来表现 n 个对象,例如用年龄,身高,性别,种族等属性来表现对象“人”。这种数据结构是关系表的形式,或者看为 n*p 维( n 个对象*p 个属性)的矩阵。

(2)相异度矩阵( dissimilarity matrix,或称为对象-对象结构):存储 n 个对象两两之间的近似性,表现形式是一个 n*n 维的矩阵。在这里 d(i,j)是对象 i 和对象 j 之间相异性的量化表示,通常它是一个非负的数值,当对象 i 和j 越相似,其值越接近 0;两个对象越不同,其值越大。既然 d(i,j) = d(j,i),而且 d(i,i)=0,我们可以得到形如(8.2)的矩阵。关于相异度,我们在这一节中会进行详细探讨。

数据矩阵经常被称为二模( two-mode)矩阵,而相异度矩阵被称为单模( one-mode)矩阵。这是因为前者的行和列代表不同的实体,而后者的行和列代表相同的实体。许多聚类算法以相异度矩阵为基础。如果数据是用数据矩阵的形式表现的,在使用该类算法之前要将其转化为相异度矩阵。

三、聚类的关键步骤

1、数据准备:包括特征标准化和降维;

2、特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中;

3、特征提取:通过对所选择的特征进行转换形成新的突出特征;

4、聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行相似度的度量,而后执行聚类或分组;

5、聚类结果评估:是指对聚类结果进行评估。评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估。

四、关键技术

1、如何用各种类型的属性来描述对象的相异度(相似性衡量similarity measurement)

(1)基于距离

(2)基于相似系数:主要有夹角余弦和相关系数

2、聚类算法clusteringalgorithm(如何聚类)

聚类分析的算法可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。划分算法和层次算法可以看做是基于距离的聚类算法。

(1)层次的方法Hierarchical methods:凝聚法(自底向上)、分裂法(自顶向上)

(2)划分方法Partition-based methods:k-means 算法及其变体,包括k-medoids、k-modes、k-medians、kernelk-means等算法

(3)基于密度Density-based methods:DBSCAN、OPTICS

(4)基于网格grid-based methods:STING、CLIQUE

(5)基于模型model-basedmethods:基于概率模型的方法(概率生成模型generative Model、高斯混合模型)和基于神经网络模型的方法(SOM:SelfOrganized Maps)

 

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值