An Experimental Study of Bitmap Compression vs. Inverted List Compression
位图压缩在数据库领域得到了广泛的研究,已经提出了许多有效的压缩方案,如BBC、WAH、EWAH和roar。倒排表压缩在信息检索领域也得到了广泛的研究,许多倒排表压缩算法也被开发出来,例如VB、PforDelta、GroupVB、Simple8b和SIMDPforDelta。观察到它们本质上解决了相同的问题,即如何用尽可能少的位存储有序整数的集合,并尽可能快地支持查询处理。由于历史原因,位图压缩和倒排表压缩被发展为数据库领域和信息检索领域两个分离的研究方向。因此,一个很自然的问题是:在位图压缩和倒排列表压缩之间,哪一个更好?
为了回答这个问题,我们提出了第一个全面的实验研究,以比较一系列的9种位图压缩方法和12种倒排列表压缩方法。在具有不同分布的合成数据集(uniform、zipf和markov)和8个真实数据集上,从空间开销、解压时间、相交时间和并集时间等方面对这21种算法进行了比较。基于这些结果,提供了许多经验教训和指导方针,可用于从业人员决定在未来的系统中采用哪种技术,也可用于研究人员开发新的算法。