Faster and Better Solution to Embed Metrics by Tree Metrics

西西弗的小蚂蚁

已于 2024-04-20 10:09:23 修改

阅读量5

点赞数

分类专栏：时间序列/高维数据相似性查询学习索引文章标签：算法

于 2022-09-16 10:54:07 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/126884649

版权

时间序列/高维数据相似性查询同时被 2 个专栏收录

44 篇文章 8 订阅

订阅专栏

学习索引

37 篇文章 17 订阅

订阅专栏

层次分离树(HST)是将度量空间嵌入到树度量中的最流行的解决方案。通过使用HSTs，许多难以定义指标的优化问题变得更容易获得与有效性有关的良好近似边界，例如任务分配、行程规划和设施位置规划。现有的工作集中于为任意度量空间构造HSTs，这使得通用算法至少需要𝑂(𝑛2)时间来获得紧密失真保证𝑂(log𝑛)。

在这里，失真是衡量HSTs有效性和可用性的一个流行指标。然而，我们观察到:(1)在许多应用HSTs的应用中，只使用了𝐿𝑝指标(如欧几里得空间)，(2)最先进的解决方案在为大规模数据构建HSTs时仍然耗时，(3)现有算法的失真仅对高维数据令人满意。因此，本文旨在通过树度量(ELT)问题来研究嵌入𝐿𝑝度量。我们的目标是设计一个比𝑂(𝑛2)更快的算法，以构建不仅具有𝑂(log𝑛)失真保证，而且具有良好和鲁棒的经验结果的HSTs。具体来说，首先提出了一个基于分而治之的通用框架，并证明了其具有𝑂(log𝑛)的失真保证。为了获得比𝑂(𝑛2)更好的时间复杂度，我们接下来设计了两种优化技术:归约到最近邻搜索(通过索引)和采样。实验结果表明，DCsam算法在失真度和运行时间上均优于现有算法。

目的：

方法：

我们设计了一个分而治之的框架。其主要思想是先找到一个好的划分方案，将一个度量空间划分为几个子空间，然后构造每个子空间的子树，最后将子树合并成最终的HST。

我们设计了两种优化技术:通过索引和两阶段采样来减少最近邻搜索的失真计算。前者给我们带来了通过利用(近似)NN的丰富文献来降低高时间复杂度的机会，这不仅限于𝐿𝑝指标。后者实现了失真和运行时间之间的权衡

首先，ELT问题将度量空间𝑆嵌入(映射)到一个简单且结构良好的树度量𝑆𝑇中(即第2.2节介绍的HST)。不幸的是，𝑆中的成对距离在𝑆𝑇中可能不会保持相同的嵌入后，其中一些被拉伸。因此，ELT旨在最小化所有拉伸中的最大值(即Def. 3中的失真)。

OUR GENERAL FRAMEWORK

在本节中，我们提出了一个基于分治的框架，包括主要思想(第3.1节)和算法细节(第3.2节)。

1）Rationale ofDivide-and-Conquer

如图1所示，HST的一个内部节点(例如𝑢2)对应于点集𝑉的一个子集(例如𝑝2-𝑝6)，而根在这个内部节点上的子树可以被视为子空间(例如({𝑝2，···，𝑝6}，𝐷𝑖𝑠))的一个HST。而且，同一层次节点的子集是不相交的。基于这些HSTs，我们分而治之的策略如下:

4 OUR OPTIMIZATION METHODS

为了减轻第一个因素，我们确定新表达式中的失真计算可以简化为第4.2节中的最近邻(NN)搜索。我们还证明了近似最近邻(ANN)可以用来处理多维数据。这种减少给我们带来了减少时间复杂度的机会，因为神经网络和人工神经网络的高效索引已经被广泛研究。通过索引，第4.2节还设计了一种剪枝策略，避免使用所有的点作为中心，这在一定程度上缓解了第二个因素。

1）Optimization By Indexing

2） Optimization By Sampling

结论：

通过树度量(ELT)问题研究嵌入𝐿𝑝度量。虽然已经提出了解决该问题的解决方案，具有最优的理论保证(𝑂(log𝑛))，但在大规模数据集上仍然不够有效和高效。为了获得较低的失真，首先提出了一种基于分而治之的框架，该框架的时间开销较大;本文提出了两种优化技术(索引和采样)，并设计了具有最优理论保证和较低时间复杂度的DCsam算法(𝑂(𝑛1.5 log2𝑛))。实验结果表明，DCsam算法在图像失真和运行时间上均优于现有算法。

阅读者总结：1）这篇论文在理论分析上是很全面的尤其对以前的工作，2）这个工作可以和向量查询结合起来实现分层构建索引树

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Faster and Better Solution to Embed Metrics by Tree Metrics

如图1所示，HST的一个内部节点(例如𝑢2)对应于点集𝑉的一个子集(例如𝑝2-𝑝6)，而根在这个内部节点上的子树可以被视为子空间(例如({𝑝2，···，𝑝6}，𝐷𝑖𝑠))的一个HST。然而，我们观察到:(1)在许多应用HSTs的应用中，只使用了𝐿𝑝指标(如欧几里得空间)，(2)最先进的解决方案在为大规模数据构建HSTs时仍然耗时，(3)现有算法的失真仅对高维数据令人满意。我们的目标是设计一个比𝑂(𝑛2)更快的算法，以构建不仅具有𝑂(log𝑛)失真保证，而且具有良好和鲁棒的经验结果的HSTs。
复制链接

扫一扫