Efficient Query Processing with Optimistically Compressed Hash Tables & Strings in the USSR

最新推荐文章于 2024-06-17 19:34:53 发布

西西弗的小蚂蚁

最新推荐文章于 2024-06-17 19:34:53 发布

阅读量125

点赞数 1

分类专栏：各类数据结构文章标签：散列表哈希算法数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zj_18706809267/article/details/127188281

版权

各类数据结构专栏收录该内容

93 篇文章 0 订阅

订阅专栏

现代查询引擎严重依赖散列表进行查询处理。总体查询性能和内存占用通常由散列表及其元组的表示方式决定。本文提出了三种互补的技术来改进这种表示:域引导的前缀抑制将键和值紧密打包，以减少哈希表记录宽度。乐观拆分将值(以及对它们的操作)分解为频繁访问的值切片和非频繁访问的值切片。通过移除哈希表记录中访问频率不高的值切片，提高了缓存局部性。唯一字符串自定位区域(苏联)通过创建一个最频繁字符串的动态字典来加速处理频繁出现的字符串，这些字符串在现实世界的数据集中很常见。这允许使用整数逻辑执行许多字符串操作，并减少内存压力。

我们将这些技术集成到Vectorwise中。在TPC-H测试集上，该方法将峰值内存消耗降低了2 ~ 4倍，性能提升了1.5倍。在一个真实的BI工作负载上，我们测量到了2倍的性能提升，在微基准测试中，我们观察到高达25倍的速度提升

西西弗的小蚂蚁

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Efficient Query Processing with Optimistically Compressed Hash Tables & Strings in the USSR

本文提出了三种互补的技术来改进这种表示:域引导的前缀抑制将键和值紧密打包，以减少哈希表记录宽度。乐观拆分将值(以及对它们的操作)分解为频繁访问的值切片和非频繁访问的值切片。唯一字符串自定位区域(苏联)通过创建一个最频繁字符串的动态字典来加速处理频繁出现的字符串，这些字符串在现实世界的数据集中很常见。在TPC-H测试集上，该方法将峰值内存消耗降低了2 ~ 4倍，性能提升了1.5倍。在一个真实的BI工作负载上，我们测量到了2倍的性能提升，在微基准测试中，我们观察到高达25倍的速度提升。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。