Sim-Piece: Highly Accurate Piecewise Linear Approximation through Similar Segment Merging

Sim-Piece: Highly Accurate Piecewise Linear Approximation through Similar Segment Merging VLDB 2023

使用具有最大误差保证的线段序列逼近一系列时间戳数据点是一个基本的数据压缩问题,称为分段线性逼近(PLA)。由于越来越需要分析不同领域的大量时间序列数据,这个问题最近受到了极大的关注,最近出现的PLA算法确实帮助我们处理了大量的信息,但代价是一些精度损失。更具体地说,这些算法需要在最大精度损失和节省空间之间进行权衡。然而,无损压缩领域的进步正在削弱PLA技术在真实数据集中的应用。在这项工作中,我们提出了Sim-Piece,一种新的时间序列数据有损压缩算法,通过找到我们可以组织这些线段的最小组数来共同表示PLA线段,从而优化表示PLA线段的空间要求。我们的实验评估表明,我们的方法很容易优于竞争技术,获得的压缩比平均比PLA算法可以提供的压缩比提高两倍以上。这允许在同等的空间要求下提供更高的精度。此外,我们的算法,由于其合并阶段的简单性,在压缩PLA描述时施加很少的开销,在空间和运行时间之间提供了显着改进的权衡。我们方法的上述优点显著提高了存储时间序列数据的效率,同时允许在其值的表示中有一个很小的最大误差。

一 背景

图1显示了四种PLA方法的压缩比,它们具有信号范围(定义为最大值和最小值之间的差值)的两个误差阈值,适度的一个等于5%,严格的一个等于0.5%。此外,图1显示了Chimp[21](最先进的流无损压缩方法)和ZStandard[1](针对实时场景的通用压缩算法)的空间需求。正如我们所看到的,对于最小的值(0.05%),两种无损方法的空间要求与PLA方法相当甚至更小。

  • 7
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值