在大规模时间序列数据库中进行相似性搜索是近年来的研究热点。这是一个困难的问题,因为数据的维数通常很高。最有希望的解决方案是对数据进行维数约简,然后使用多维索引结构对约简后的数据建立索引。许多降维技术已经被提出,包括奇异值分解(SVD)、离散傅里叶变换(DFT)和离散小波变换(DWT)。本文提出一种新的自适应降维技术分段常数近似(APCA)。之前的技术(如SVD、DFT和DWT)为数据库中的所有项目选择一个共同的表示,以最小化全局重建误差,而APCA用一组不同长度的常值段近似每个时间序列,使它们的单个重建误差最小。我们展示了APCA可以使用多维索引结构进行索引。在索引空间中提出了两种距离度量,利用APCA的高保真度进行快速搜索:下界欧氏距离近似,和非下界但非常紧密的欧氏距离近似,并展示了它们如何支持快速精确搜索,甚至在相同索引结构上更快的近似搜索。从理论上和经验上比较了APCA与所有其他技术,并证明了其优越性。
Locally Adaptive Dimensionality Reduction for Indexing Large Time Series Databases(sigmod2002)
最新推荐文章于 2024-06-14 11:34:45 发布