BinDex: A Two-Layered Index for Fast and Robust Scans

西西弗的小蚂蚁

已于 2024-04-15 11:06:16 修改

阅读量13

点赞数

分类专栏：各类数据结构文章标签：数据挖掘人工智能

于 2022-10-14 18:03:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zj_18706809267/article/details/127320722

版权

在现代分析数据库系统中，数据扫描操作的性能对查询执行的性能至关重要。现有的扫描方法可分为索引扫描和顺序扫描。然而，这两种方法都有固有的低效率。事实上，顺序扫描可能需要访问大量不需要的数据，特别是在选择性较低的查询中。相反，当查询选择性很高时，索引扫描可能涉及大量昂贵的随机内存访问。此外，随着数据库查询工作负载的日益复杂，很难预测哪种方法更适合特定的查询。

为了在所有选择项下获得快速且鲁棒的扫描，提出了一种基于分箱位图的双层索引结构BinDex，用于显著加速内存列存储的扫描操作。BinDex的第一层由一组分箱位图组成，它过滤掉了列中大多数不需要的值。第二层提供一些辅助信息来纠正有错误值的比特位。通过改变第一层位向量的数量，BinDex可以在内存空间和性能之间做出权衡。实验结果表明，与B+树相比，BinDex具有更好的性能和更少的内存开销。通过扩大内存空间，BinDex可以获得高达2.9倍的性能提升，无需在顺序扫描或索引扫描之间进行选择。

背景：1）在这种情况下，因为满足谓词的值可能散布在所有列上，索引扫描可能涉及对基本数据和索引数据结构的多次随机内存访问。众所周知，随机存储器访问的操作时间比顺序存储器访问的操作时间大一个数量级。因此，随机访问的开销会抵消顺序扫描在选择性变高时避免访问不必要数据所带来的好处，而顺序扫描的性能将优于索引扫描。总的来说，索引扫描和顺序扫描都有其固有的低效率。

总之

最低0.47元/天解锁文章

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BinDex: A Two-Layered Index for Fast and Robust Scans

总的来说，索引扫描和顺序扫描都有其固有的低效率。请注意，列中的值仍然以原始顺序存储，其中虚拟值空间只是BinDex中的一个概念，并不是单独存储的。由于位向量的数量较多，第二层需要探测的值较少，这将带来更高的性能，但更大的内存使用量。我们提出了BinDex，这是一个两层索引，它通过采用现有索引扫描和顺序扫描的主要优点，在所有选择条件下健壮地显著提高了内存列存储的扫描性能。总之：如果存在大量的满足查询条件的对象，他们大部分会散列在不同的磁盘列上，导致index-based方法的性能时间对大于顺序扫描的时间。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。