Odyssey: A Journey in the Land of Distributed Data Series Similarity Search(VLDB2023)

西西弗的小蚂蚁

已于 2023-02-20 19:04:05 修改

阅读量482

点赞数

分类专栏：分布式系统轨迹数据相似性查询时间序列/高维数据相似性查询文章标签：分布式 Powered by 金山文档

于 2023-02-20 19:02:56 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/129127811

版权

Odyssey是一个新的分布式数据序列处理框架，它有效解决了数据序列处理的挑战，展现出良好的加速比和高可扩展性。通过部分复制方案，Odyssey在数据可扩展性和查询响应性能之间达到平衡。实验表明，Odyssey成功实现了其目标，适用于大规模数据集的处理。

摘要由CSDN通过智能技术生成

本文提出了一种新的分布式数据序列处理框架Odyssey，通过充分利用由多核服务器组成的现代分布式系统的计算能力，有效地解决了数据序列处理的关键挑战，展示了良好的加速比和高可扩展性。Odyssey解决了设计高效和高度可扩展的分布式数据系列索引时的许多挑战，包括高效的调度和负载平衡，而无需支付移动数据的高昂成本。它还支持灵活的部分复制方案，这使Odyssey能够在数据可扩展性和查询响应期间的良好性能之间进行基本权衡。通过广泛的配置和使用几个真实和合成数据集，实验分析表明，Odyssey实现了其具有挑战性的目标。

一.要解决的问题

最近提出的最先进的(SotA)数据序列索引通过使用多线程和利用现代硬件的SIMD能力来利用并行性。然而，由于数据规模的增加，使得一些并行数据序列索引也不充分，主要是由于精确查询回答需要大量随机磁盘页读取。（数据量增加导致索引结构的精度下降，不能适应当前的环境）

为了解决这些问题，人们提出了快速内存解决方案[49,50,52]。然而，这些解决方案没有利用分布式系统的优势，因此，受到单个机器的内存量的限制。这就是我们要解决的限制，因此允许上述SotA解决方案处理远超过任何单个节点主内存容量的数据集。（没有考虑使用分布式的计算环境）

面临的挑战 1）满足可伸缩性：确保在整个执行期间，分布式系统的所有节点都能平等地完成工作。转化为产生以下两个问题的有效解决方案:(i)查询调度:给定一个查询工作负载，决定将哪些查询分配给每个系统节点;以及(ii)负载平衡:设计一种机制，使得完成工作的系统节点可以帮助其他节点完成它们的工作。总之：面临两个问题一个查询调度问题；另一个是数据装载问题

二.采用的方法