Sim-Piece: Highly Accurate Piecewise Linear Approximation through Similar Segment Merging VLDB 2023
使用具有最大误差保证的线段序列逼近一系列时间戳数据点是一个基本的数据压缩问题,称为分段线性逼近(PLA)。由于越来越需要分析不同领域的大量时间序列数据,这个问题最近受到了极大的关注,最近出现的PLA算法确实帮助我们处理了大量的信息,但代价是一些精度损失。更具体地说,这些算法需要在最大精度损失和节省空间之间进行权衡。然而,无损压缩领域的进步正在削弱PLA技术在真实数据集中的应用。在这项工作中,我们提出了Sim-Piece,一种新的时间序列数据有损压缩算法,通过找到我们可以组织这些线段的最小组数来共同表示PLA线段,从而优化表示PLA线段的空间要求。我们的实验评估表明,我们的方法很容易优于竞争技术,获得的压缩比平均比PLA算法可以提供的压缩比提高两倍以上。这允许在同等的空间要求下提供更高的精度。此外,我们的算法,由于其合并阶段的简单性,在压缩PLA描述时施加很少的开销,在空间和运行时间之间提供了显着改进的权衡。我们方法的上述优点显著提高了存储时间序列数据的效率,同时允许在其值的表示中有一个很小的最大误差。
一 背景
图1显示了四种PLA方法的压缩比,它们具有信号范围(定义为最大值和最小值之间的差值)的两个误差阈值,适度的一个等于5%,严格的一个等于0.5%。此外,图1显示了Chimp[21](最先进的流无损压缩方法)和ZStandard[1](针对实时场景的通用压缩算法)的空间需求。正如我们所看到的,对于最小的值(0.05%),两种无损方法的空间要求与PLA方法相当甚至更小。