A Framework of Three-Way Cluster Analysis 论文记录

最新推荐文章于 2024-11-04 22:18:51 发布

雨落又迷鹿了

最新推荐文章于 2024-11-04 22:18:51 发布

阅读量257

点赞数

分类专栏：模糊数学文章标签：聚类数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_45783835/article/details/121053950

版权

模糊数学专栏收录该内容

1 篇文章 0 订阅

订阅专栏

A Framework of Three-Way Cluster Analysis

Abstract.

受三支决策理论的影响，提出了一种新的框架TWC，用来处理不确定聚类。相比于使用两种区域分类，这个方法提出了三个区域：core fringe trivial来处理不整数据，并且实验结果表明，该方法对于不确定数据中的不完全数据聚类是有效的。

Introduction

聚类时一个对象是否属于某个簇类的一个过程

在这里插入图片描述

对于一组数据，最细的聚类时每个对象一个簇类，从粗一点的粒度入手，是两个簇类（如下），再粗一点是一个大聚类。

在这里插入图片描述

我们注意到X₁和X₂ 似乎是属于红色簇类，也属于黄色簇类，当对象确定的属于两个簇类时，就出现了软聚类、模糊聚类。如下便是重叠聚类的双向聚类结果。

在这里插入图片描述

然而在此聚类中，重叠聚类不能很好的表示X₃和X₄以基X₅X₆是簇类的边缘对象，相比之下，我们引入三项决策的观点将其划分为一下区域就可以直观的看到他们被分配到了边缘区域。

在这里插入图片描述

对象和簇之间存在三种关系：（1）对象肯定属于簇，（2）对象肯定不属于簇，（3）对象可能属于也可能不属于簇。

Framework of Three-Way Clustering

Representation of Three-Way Clustering

令U = {x₁,···,x_n, ··· ，x_n}表示论域，其中x_n有D维度数据

x_n=（x_n¹ ,…x_n²,…x_n^D）
C={C¹,…,C^k,…c^K}表示K个簇类

根据 Vladimir Estivill-Castro 的说法，“集群”的概念无法准确定义，这也是为什么有这么多聚类算法的原因之一。有一个共同点：一组数据对象。聚类分析或聚类是将一组对象以这样的方式分组的任务，**即同一组（称为聚类）中的对象彼此之间比其他组（聚类）中的对象更相似（在某种意义上或其他） **

当前现存的聚类大都是一个集合，即某个对象属于或者不属于此聚类

对于软聚类即这个对象又属于另一个对象的时候，这种表示不能只管的显示对象对簇类的影像程度，如果用三个区域来表示，则比一个集合更适合。

我们把三项聚类的集合表示为一堆区域：

(1)

C = {Co©,Fr©*}
其中Co©和Fr©都属于U，并且让Tr©=U-Co©-Fr©,则：
CoreRegion(C) = Co(C)
F ringeRegion(C) = F r(C)
(2)
T rivialRegion(C) = U − Co(C) − F r(C)

如果x属于核心区域，则一定属于该聚类，如果x边界区域，则可能属于该聚类，如果x属于琐碎区域则一定不属于该聚类，这就使得三者任意两个相交是空集且三个的并集为U。如果边界区域Fr( C)是空集。如果Fr©为空集，则Eq(1) C=Co©，Tr©区域也随之变化。则三向聚类变为双向聚类。

对于簇类C，C = {{Co(C¹),Fr(C¹)}, ···,{Co*(C^k),Fr*(C^k)}, ··· , {Co*(C^K),Fr*(C^K)}}

An Evaluation-Based Three-Way Cluster Model

假设一对阈值(α, β)，并且α ≥ β ，我们可以通过简单地将评估值与一对阈值进行比较来获得三个区域，事实上，评价函数v(x)可以是风险决策函数、相似度函数等。换句话说，在设计算法时将相应地指定评估函数。

在这里插入图片描述

由此当以下条件任意一条满足时就会有对象属于多个聚类在这里插入图片描述

An Algorithm for Incomplete Data Using the Three-Way Cluster Model

To Measure Distance Between Incomplete Objects

A = {a₁, ··· , a_D},D是属性的数目

W = {w₁, w₂, ··· , w_d, ··· , w_D}为属性的权重，并且从w₁依次递减

聚类分析或聚类是将一组对象分组的任务，使同一组中的对象彼此之间比其他组中的对象更相似。所以如何度量对象之间的距离或相似度是聚类分析中的一个关键问题.然而，由于缺失值，一些常用的相似度计算方法无法直接计算不完整数据之间的相似度。 偏欧式距离公式用于测量两个不完整数据之间的距离。但该公式只考虑了非缺失属性，而忽略了缺失值对相似度的影响。此外，欧几里德距离不利于找到球面结构。

因此，我们通过改进现有的偏欧式距离公式，提出了一种新的不完整数据之间的相似度度量。所提出的方法考虑了属性重要性和缺失率对相似性的影响。让我们考虑以下情况，实际上很远的距离有两个不完整的数据。属性值在非重要属性上相似，但在重要属性上不同。当两个对象遗漏了大量重要属性时，前面公式计算出的距离会比实际距离小很多，因为结果可能来自一些不重要的属性。不准确的距离会严重影响聚类算法的效果。为了避免这种情况，在加权偏欧式距离公式中加入了缺失率和缺失属性权重之和。因此，改进后的公式会在丢失大量重要值时大幅扩大距离。同样，改进后的公式只是在遗漏了少量非重要值时略微增加了距离。然后，给出改进的偏欧式距离公式如下：

在这里插入图片描述