子空间聚类算法是指把数据的原始特征空间分割为不同的特征子集,从不同的子空间角度考察各个数据簇聚类划分的意义,同时在聚类过程中为每个数据簇寻找到相应的特征子空间。总得来说,子空间聚类的任务主要有两个:1)发现可以聚类的子空间(属性子集);**2)在相应的子空间上聚类。**子空间聚类算法实际上是将传统的特征选择技术和聚类算法进行结合,在对数据样本聚类划分的过程中,得到各个数据簇对应的特征子集或者特征权重。根据目前的研究结果,子空间聚类可以分为硬子空间聚类和软子空间聚类两种形式。
硬子空间聚类和软子空间聚类之间的区别
- 硬子空间聚类算法能识别不同类所在的精确子空间,与硬子空间聚类不同的是,软子空间聚类不需要为每一个类找到精确的子空间,而是给每个类的特征赋予不同的权值,利用这些权值来衡量每维特征在不同类中的贡献,即软子空间聚类为每类找到一个软子空间。
- 简单地说,硬子空间聚类中,一个属性必须且只能属于一个子空间,聚类在这些子空间中进行,属性在每个子空间中的权值要么是0,要么是1。
- 软子空间聚类是在全维空间对整个数据集聚类,每个子空间包含所有属性,但是每个属性被赋予[0,1]不同的权值,属性权值描述了属性与对应子空间之间的关联程度,权值越大说明该属性在这个子空间越重要,与该子空间的关联性也就越强。
参考链接
[1] 高维数据的聚类算法 2018.4