Tree-Encoded Bitmaps
本文提出一种新颖的压缩位图表示方法。与现有的位图压缩方案类似,利用了由连续相同位填充的位图的压缩潜力,即0-runs and 1-runs.。但与之前的工作相比,该方法采用二叉树结构来表示不同长度的运行。因此,位于树上层的叶节点表示较长的运行时间,反之亦然。基于树的表示产生了高压缩比,并实现了有效的随机访问,这反过来允许位图的快速交叉。对随机生成的位图的实验分析表明,当位图密集和/或仅勉强聚类时,所提出方法比最先进的压缩技术有显著改进。用真实世界的数据集评估了所提出的方法,表明所提出的树编码位图可以比现有技术节省多达三分之一的空间。
一背景
考虑属性a上的位图索引,由长度为n的| a |单个位图组成,其中| a |是a的不同值的数量,n是对应关系中元组的数量。索引中1比特的总数也是n,而每个位图平均接收n个|和| 1比特。大量不同的值或存在倾斜,会导致位图索引中有许多稀疏填充的位图。稀疏性意味着这些位图主要由连续的0位组成,即0跑动。长时间的相同位序列提供了巨大的压缩潜力,这是所有现有位图压缩方案都试图利用的。
本文提出