基于网格的聚类 Grid-based Clustering

网格聚类是一种快速处理多维数据的技术,如CLIQUE、STING、MAFIA等。这些算法通过创建网格结构,根据密度阈值找到聚类。CLIQUE利用密度和网格,STING采用多分辨率技术,MAFIA使用自适应网格。AMR自适应地创建不同分辨率的网格以检测嵌套聚类。这些算法在处理大规模数据集时,具有低计算复杂度和处理任意形状聚类的能力。
摘要由CSDN通过智能技术生成

The grid-based technique is used for a multi-dimensional dataset. In this technique, we create a grid structure, and the comparison is performed on grids(also know as cells). The grid-based technique is fast and has low computational complexity.–wiki

基于网格的技术用于多维数据集。在这种技术中,我们创建了一个网格结构,并在网格grids(也称为单元格cells)上就行了比较。基于网格的技术速度快且计算复杂度低。基于网格的聚类算法涉及步骤为:

  1. 将数据空间划分为有限数量的单元格。

  2. 随机选择一个单元格“c”,c不应该事先遍历。

  3. 计算“c”的密度

  4. 如果’c’的密度大于阈值的密度

(1)将单元格“c”标记为新的聚类(cluster)

(2)计算“c”所有邻居的密度

(3)如果相邻单元的密度大于阈值密度,将其添加到集群中,并且重复步骤4.2和4.3直到没有相邻单元的密度大于阈值密度

  1. 重复步骤2,3,4,直到遍历所有单元格。

  2. 停止

基于网格的方法将对象空间向量化为有限数量的单元格(超矩形),然后在量化空间上执行所需的操作。基于网格的方法主要优点是它的快速处理时间,这取决于量化空间中每个维度中的单元格数量。

下面介绍了一些基于网格的方法:

CLIQUE (Clustering in QUEst)

STING (Statistical Information Grid 统计信息网格)

MAFIA (Merging of adaptive interval approach to spatial datamining 空间数据挖掘的自适应区间方法的合并)

Wave Cluster (小波聚类)

O-CLUSTER (orthogonal partitioning CLUSTERing 正交分区聚类)

Axis Shifted Grid ClusteringAlgorithm(轴移动网格聚类算法)

Adaptive Mesh Refinement (自适应网格细化)

聚类是将数据分组到类class或簇cluster的过程,使簇内的对象具有很高的相似性,但与其他簇中的对象非常不同。一个好的聚类算法应该能够识别聚类,而不管它们的形状。聚类算法的其它要求是可扩展性、处理噪声数据的能力、对输入记录顺序不敏感等。

CLIQUE (Clustering in QUEst)

它利用了密度和基于网格的方法。在第一步中,CLIQUE 将n维数据空间S划分为不重叠的矩形单元(网格)。单位是通过将每个维度分成等长的ξ区间来获得。ξ 是一个输入参数,一个单元的选择性定义为其中包含的总数据点。当选择性(u)大于γ,则单位 u是稠密的,γ是另外一个需要输入的参数,称为密度阈值。子空间中的一个单元是来自K个属性中的每一个区间的交集。集群是链接的密集单元的最大集合。如果两个K维单元u1, u2有相同的外在(commonface)。那么将这两个单元连接。然后将密集单元连接起来形成集群。它使用apriori 算法(自底向上算法)来找到密集单元。密集单元是通过使用以下事实来识别的:如果K维单元(a1,b1)(a2,b2)…(ak,bk)是密集的, 然后任何k-1维度的单元(a1,b1)(a2,b2)…(aik-1,bik-1)也是密集的,其中(ai,bi)是第i个维度的单位。

给定一组数据点和输入参数ξ及γ,CLIQUE能够在所有原始空间的所有子空间中找到聚类,并以DNF表达式的形式呈现每个集群的最小描述。CLIQUE中涉及的步骤为:

1)识别包含簇的子空间(密集单元);

2)将密集单元合并形成聚类;

3)生成集群的最小描述。

STING:( A Statistical Information grid approachto spatial data mining)

空间数据挖掘是提取隐含知识、空间关系和发现数据库中未明确表示的有趣特征和模式。(空间数据挖掘在很多领域都有广泛的应用,包括GIS系统、图像数据库探索,医学成像等等)。

STING 是一个基于网格的多分辨聚类技术,其中空间区域被划分为矩形单元(使用维度和经度),并采用分层结构。(多分辨技术:首先使用一种粗糙的尺度对少量的图像像素进行处理,然后在下一层使用一种精确的尺度, 并用上一层的结果对其参数进行初始化. 迭代该过程, 直到达到最精确的尺度.这种由粗到细, 在大尺度上看整体,在小尺度上看细节的方法能够极大程度地提高配准成功率)。

通常有几个级别的这种矩形单元对应于不同的分辨率级别。高级别的每个单元格被划分为较低级别的子单元格。第i层的单元格对应于第i+1层的子单元的并集。每个单元格(叶子除外)有四个子单元,每个子单元对应于父单元的一个象限。

关于每个网格单元中的属性的统计信息(例如,均值、标准差、最大值和最小值)是预先计算并存储好的。

高一层单元的统计参数可以很容易地从低层单元的参数计算出来。对于每个单元格,都有属性独立参数和属性相关参数:

i)属性独立参数:

count 计数;

ii)属性关联参数;

M-此单元格中所有值的平均值;S-此单元格中的所有值的标准差;Min-此单元格中属性的最小值;Max-该单元格中属性的最大值,Distribution-属性值遵循的分布类型。分布类型为正态、均值指数和无。

当数据被加载到数据库中,底层单元的参数count, m, s, min, max 直接从数据中计算得到。

首先,确定查询处理过程从哪

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值