A Framework of Three-Way Cluster Analysis
Abstract.
受三支决策理论的影响,提出了一种新的框架TWC,用来处理不确定聚类 。相比于使用两种区域分类,这个方法提出了三个区域:core fringe trivial来处理不整数据,并且实验结果表明,该方法对于不确定数据中的不完全数据聚类是有效的。
Introduction
聚类时一个对象是否属于某个簇类的一个过程
对于一组数据,最细的聚类时每个对象一个簇类,从粗一点的粒度入手,是两个簇类(如下),再粗一点是一个大聚类。
我们注意到X1和X2 似乎是属于红色簇类,也属于黄色簇类,当对象确定的属于两个簇类时,就出现了软聚类、模糊聚类。如下便是重叠聚类的双向聚类结果。
然而在此聚类中,重叠聚类不能很好的表示X3和X4以基X5X6是簇类的边缘对象,相比之下,我们引入三项决策的观点将其划分为一下区域就可以直观的看到他们被分配到了边缘区域。
对象和簇之间存在三种关系:(1)对象肯定属于簇,(2)对象肯定不属于簇,(3)对象可能属于也可能不属于簇。
Framework of Three-Way Clustering
Representation of Three-Way Clustering
令U = {x1,···,xn, ··· ,xn}表示论域,其中xn有D维度数据
xn=(xn1 ,…xn2,…xnD)
C={C1,…,Ck,…cK}表示K个簇类
根据 Vladimir Estivill-Castro 的说法,“集群”的概念无法准确定义,这也是为什么有这么多聚类算法的原因之一 。 有一个共同点:一组数据对象。 聚类分析或聚类是将一组对象以这样的方式分组的任务,**即同一组(称为聚类)中的对象彼此之间比其他组(聚类)中的对象更相似(在某种意义上或其他) **
当前现存的聚类大都是一个集合,即某个对象属于或者不属于此聚类
对于软聚类即这个对象又属于另一个对象的时候,这种表示不能只管的显示对象对簇类的影像程度,如果用三个区域来表示,则比一个集合更适合。
我们把三项聚类的集合表示为一堆区域:
(1)
-
C = {Co©,Fr©*}
其中Co©和Fr©都属于U,并且让Tr©=U-Co©-Fr©,则: -
CoreRegion(C) = Co(C)
-
F ringeRegion(C) = F r(C)
(2)
-
T rivialRegion(C) = U − Co(C) − F r(C)
如果x属于核心区域,则一定属于该聚类,如果x边界区域,则可能属于该聚类,如果x属于琐碎区域则一定不属于该聚类,这就使得三者任意两个相交是空集且三个的并集为U。如果边界区域Fr( C)是空集。如果Fr©为空集,则Eq(1) C=Co©,Tr©区域也随之变化。则三向聚类变为双向聚类。
对于簇类C,C = {{Co(C1),Fr(C1)}, ···,{Co*(Ck),Fr*(Ck)}, ··· , {Co*(CK),Fr*(CK)}}
An Evaluation-Based Three-Way Cluster Model
假设一对阈值(α, β),并且α ≥ β ,我们可以通过简单地将评估值与一对阈值进行比较来获得三个区域,事实上,评价函数v(x)可以是风险决策函数、相似度函数等。 换句话说,在设计算法时将相应地指定评估函数。
由此当以下条件任意一条满足时就会有对象属于多个聚类
An Algorithm for Incomplete Data Using the Three-Way Cluster Model
To Measure Distance Between Incomplete Objects
A = {a1, ··· , aD},D是属性的数目
W = {w1, w2, ··· , wd, ··· , wD}为属性的权重,并且从w1依次递减
聚类分析或聚类是将一组对象分组的任务,使同一组中的对象彼此之间比其他组中的对象更相似。 所以如何度量对象之间的距离或相似度是聚类分析中的一个关键问题.然而,由于缺失值,一些常用的相似度计算方法无法直接计算不完整数据之间的相似度。 偏欧式距离公式用于测量两个不完整数据之间的距离。 但该公式只考虑了非缺失属性,而忽略了缺失值对相似度的影响。 此外,欧几里德距离不利于找到球面结构。
因此,我们通过改进现有的偏欧式距离公式,提出了一种新的不完整数据之间的相似度度量。 所提出的方法考虑了属性重要性和缺失率对相似性的影响。 让我们考虑以下情况,实际上很远的距离有两个不完整的数据。 属性值在非重要属性上相似,但在重要属性上不同。 当两个对象遗漏了大量重要属性时,前面公式计算出的距离会比实际距离小很多,因为结果可能来自一些不重要的属性。 不准确的距离会严重影响聚类算法的效果。 为了避免这种情况,在加权偏欧式距离公式中加入了缺失率和缺失属性权重之和。 因此,改进后的公式会在丢失大量重要值时大幅扩大距离。 同样,改进后的公式只是在遗漏了少量非重要值时略微增加了距离。 然后,给出改进的偏欧式距离公式如下:
*表示数值的缺失,Wmiss表示在xi或者xj的缺失值属性权重的和
MR表示xi和xj联合错误率,表示缺失属性数目占总属性数目的比重
MR=
如果两个物体上都没有缺失值,建议的公式就是传统的欧氏距离公式。
The Algorithm Based on Three-Way Cluster Framework
作者将不完整数据分为充足数据、有价值数据、不充分数据和无效数据四种类型。
充足的数据有更多的信息,有价值的数据中的重要属性可能存在很多缺失值、数据不足和无效数据,通常填充值的常见策略可能会导致新的不确定性。 因此,当决策信息不足或对象刚好满足划分条件时,将不完整数据分配到等待更多信息以帮助进一步决策的簇的边缘区域比将它们任意分配到核心区域或琐碎区域更合理到边缘地区。
我们首先在xi的半径Rth内找到一个邻域Xi-Neighbor={xj |Dist(xi,xj) <=Rth},然后xi根据每个簇的比例分配到相应簇的核心区域或边缘区