QUILTS: Multidimensional Partitioning Framework Based on Query-Aware and Skew-Tolerant Space-Fill

西西弗的小蚂蚁

已于 2024-04-20 10:08:39 修改

阅读量5

点赞数

分类专栏：时间序列/高维数据相似性查询文章标签：数据挖掘大数据人工智能

于 2022-09-16 20:37:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zj_18706809267/article/details/126893501

版权

时间序列/高维数据相似性查询专栏收录该内容

44 篇文章 8 订阅

订阅专栏

近年来，海量数据管理在数据分析中扮演着越来越重要的角色，因为数据访问是一个主要的瓶颈。跳跃式数据访问是一种有效减少数据访问次数的技术。数据跳转将数据划分为页，只访问包含查询要检索的数据的页。因此，需要有效的数据分区，以最小化页访问的次数。然而，在给定查询模式和数据分布的情况下，获得最优的数据划分是一个NP-hard问题。

该文提出了一个基于空间填充曲线的多维索引框架。空间填充曲线是一种定义哪些数据可以存储在同一页面中的方法。因此，这个问题可以解释为选择一条曲线来分配查询要访问的数据，以最小化页访问的次数。为了解决这个问题，分析了不同的空间填充曲线对页面访问次数的影响。我们发现曲线能够拟合查询模式并对任何数据分布具有鲁棒性是至关重要的。本文提出了一个代价模型，用于衡量空间填充曲线拟合给定查询模式和容忍数据倾斜的程度。此外，本文还提出了一种查询感知和倾斜容忍曲线的设计方法。

我们使用定义的查询感知和倾斜容忍曲线对框架进行了原型设计。使用倾斜数据集进行了实验，并证实了该框架可以将具有真实数据的数据仓库(DWH)和地理信息系统(GIS)应用的页面访问次数减少一个数量级。

方法：

我们分析了这些特性，发现曲线能够拟合查询模式并对任何数据分布具有鲁棒性是至关重要的。当曲线具有给定查询模式的上述属性并能够处理倾斜的数据分布时，我们称曲线是查询感知的和容忍倾斜的。

Thus, we propose a multidimensional data partitioning framework based on a query-aware and skew-tolerant space-filling curve, called QUILTS: QUery-Intensive Linearization Tolerating data Skew.

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
QUILTS: Multidimensional Partitioning Framework Based on Query-Aware and Skew-Tolerant Space-Fill

数据跳转将数据划分为页，只访问包含查询要检索的数据的页。因此，需要有效的数据分区，以最小化页访问的次数。然而，在给定查询模式和数据分布的情况下，获得最优的数据划分是一个NP-hard问题。使用倾斜数据集进行了实验，并证实了该框架可以将具有真实数据的数据仓库(DWH)和地理信息系统(GIS)应用的页面访问次数减少一个数量级。因此，这个问题可以解释为选择一条曲线来分配查询要访问的数据，以最小化页访问的次数。当曲线具有给定查询模式的上述属性并能够处理倾斜的数据分布时，我们称曲线是查询感知的和容忍倾斜的。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。