![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
最近邻查询
文章平均质量分 66
西西弗的小蚂蚁
不要辜负这美好的时光!
展开
-
A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate Nearest Neighbor Searc
然而,这些工作侧重于用不同的方法开发和优化算法,因此确实需要对这些方法的相对性能、优势和缺陷进行全面的调查。在8个真实数据集和12个不同大小和特征的合成数据集上,在统一的测试环境中比较了每种算法。这项工作还帮助我们确定了算法的工作部分,以及关于有前途的研究方向和适合不同领域从业人员的算法的经验法则建议。本文通过新的分类法和细粒度管道对13种代表性的基于图的人工神经网络算法进行了彻底的比较分析和实验评估。基于图的人工神经网络算法一直是该领域的主导范式,提出了数十种基于图的人工神经网络算法。原创 2024-04-21 13:23:14 · 133 阅读 · 0 评论 -
ByteGNN: Efficient Graph Neural Network Training at Large Scale
随着图数据量的增加,分布式GNN系统对于支持高效的GNN训练变得至关重要。然而,现有的分布式GNN训练系统存在网络通信成本高、CPU利用率低、端到端性能差等问题。本文提出了ByteGNN,通过3个关键设计来解决现有分布式GNN系统中的局限性:(1)抽象的小批量图采样以支持高并行性;(2)两级调度策略以提高资源利用率并减少端到端GNN训练时间;实验表明,与目前最先进的分布式GNN系统相比,ByteGNN的端到端执行速度提高了3.5 ~ 23.8倍,CPU利用率提高了2 ~ 6倍,网络通信成本降低了约一半。原创 2024-04-21 13:22:39 · 220 阅读 · 0 评论 -
Towards Designing and Learning Piecewise Space-Filling Curves
我们的想法是根据数据和查询工作负载属性为不同的子空间设计不同的bmp,以优化查询性能。根据我们的想法设计的SFC将包含多个bmp,每个bmp对应于一个子空间,我们将得到的SFC称为分段SFC。在本文中,我们提出了一种新的SFC,称为分段SFC,它对不同的数据子空间采用不同的映射方案。一个常见的问题是,每种类型的SFC都有自己固定的映射方案/功能,无法调整以适应不同的数据集。我们建议将BMTree的构建建模为马尔可夫决策过程(MDP)[38],旨在开发数据驱动的解决方案,为不同的子空间设计合适的bmp。原创 2023-06-26 20:53:23 · 67 阅读 · 0 评论 -
G∗-Tree: An Efficient Spatial Index on Road Networks
为了解决这一问题,最近的一项研究提出了G-tree,在一个框架内支持多种类型的道路网络空间查询。在各种大规模道路网络上进行了广泛的实验,比较了G∗-tree和当前最先进的索引方法,结果表明G∗-tree在处理空间查询方面具有更好的效率和可扩展性。本文在G树的基础上,提出了3种基于快捷方式的距离查询、k最近邻查询和范围查询算法,与G树上现有的基于集合的算法相比,它们具有更高的效率。针对G树索引效率低下的问题,提出了一种新的路网索引结构——G树,其核心思想是在选定的叶子节点之间建立捷径。原创 2022-10-29 20:39:14 · 23 阅读 · 0 评论 -
HQANN: Efficient and Robust Similarity Search for Hybrid Queries with Structured and Unstructured Co
然而,NHQ以原有的矢量距离度量为主导,未能强调属性的重要性,其性能随着属性数量的增加而急剧下降。在公共数据集和内部数据集上的实验结果表明,在达到相同的召回质量方面,HQANN比最先进的混合ann解决方案快10倍,而且其性能几乎不受属性复杂性的影响。,我们通过遍历复合图来合并搜索和过滤阶段,从而产生高召回率的混合ann算法,而额外的计算开销可以忽略不计。,特征向量)和结构化(𝑖.𝑒。两个混合数据点之间的距离主要由它们的属性距离定义,它们的特征向量距离作为调整因子,对融合距离的影响有限。原创 2022-10-23 10:39:37 · 42 阅读 · 0 评论 -
Multi-Scale Contrastive Siamese Networks for Self-Supervised Graph Representation Learning
为了证明所提方法的有效性,在五个真实数据集上进行了实证实验。所提出方法不仅实现了新的最先进的结果,而且还以很大的优势超过了一些半监督的对应方法。然后,采用两个目标,即跨视图和跨网络对比性,以最大化不同视图和网络的节点表示之间的一致性。关键点:图表示学习,解决图标签少的问题。搜到图对比学习和孪生网络的启发,采用了多尺度对比学习自监督蒸馏学习方法。然而,先前关于图表示学习的技术严重依赖于。受图对比学习和孪生网络最近在视觉表示学习中的成功启发。,本文提出一种新的自监督方法,通过。原创 2022-10-20 10:07:27 · 14 阅读 · 0 评论 -
Cache locality is not enough: High-Performance Nearest Neighbor Search with Product Quantization Fas
Cache locality is not enough: High-Performance Nearest Neighbor Search with Product Quantization Fast Scan高维数据的最近邻搜索是许多应用(如图像检索、多媒体数据库)中的一个重要特征。产品量化(Product Quantization, PQ)是一种广泛使用的高性能解决方案,它可以在保持高精度的同时降低响应时间。PQ通过紧凑编码表示高维向量(例如,图像描述子)。因此,可以将非常大的数据库存储在内存中,从而原创 2022-10-18 12:04:11 · 10 阅读 · 0 评论 -
LANNS: AWeb-Scale Approximate Nearest Neighbor Lookup System
大规模近似最近邻搜索库(lan)部署在多个生产系统中,用于识别top-K(100≤k≤200)近似最近邻,每个查询的延迟为几毫秒,单节点上的高吞吐量为每秒2.5k次查询(QPS),对于大型(例如,~ 180M数据点)高维(50-2048维)数据集。第二层分区的目的是减少分片的缺点。分片是我们的第一级分区,对于一个非常大的数据集来说是必要的,因为保存整个数据集的内存需求非常大,单个节点无法容纳。使用这种并行构建独立的HNSW索引(每个数据划分一个)和灵活的数据分割,实现了快速的索引构建和在线服务。原创 2022-10-16 15:47:21 · 9 阅读 · 0 评论 -
TASTI: Semantic Indexes for Machine Learning-based Queries over Unstructured Data
给定目标标记器和用户提供的目标标记器输出的贴近度函数,TASTI为每个非结构化数据记录(例如,视频帧)产生嵌入,所需的条件是,接近的记录具有接近的嵌入。为了加速查询,许多最近的系统(例如BlazeIt、NoScope、Tahoma、SUPG等)训练了一个特定于查询的代理模型来近似大型目标标记器(即这些昂贵的神经网络或人工标记器)。,这些方法可以传递给现有的基于代理分数的算法。TASTI的索引构建过程包括可选的通过三元组损失训练嵌入DNN,为每条记录生成嵌入,选择集群代表,以及计算集群代表的统计信息。原创 2022-10-07 20:25:18 · 6 阅读 · 0 评论 -
Neighbor-Sensitive Hashing
本文放弃了这种被大量利用的原则,追求相反的方向,为kNN任务生成更有效的哈希函数。3.2节列出了NST的一组抽象的数学性质,3.3节给出了一个满足这些性质的NST的具体例子。使用二进制哈希函数的近似kNN (k-nearest neighbor)技术是最常用的方法之一,用于克服执行精确kNN查询的过高成本。在这个过程中,一个被广泛采用的原则是,相似的项被分配相同的哈希码,这样与查询的哈希码相似的项很可能是真正的邻居。基于数据项的哈希码检索出的kNN项应该包含尽可能多的真正的kNN项。原创 2022-10-06 14:37:26 · 5 阅读 · 0 评论 -
Hybrid LSH: Faster Near Neighbors Reporting in High-dimensional Space
这意味着我们可以在基于lsh的搜索和线性搜索之间选择合适的搜索策略,以获得更好的性能。此外,集成的数据结构是时间高效的,可以与许多最新的基于lsh的方法相适应。在真实数据集上的实验结果表明,在大范围的搜索半径和高维数据分布下,混合搜索方法的性能优于(或与)基于lsh的搜索和线性搜索方法相当。通过在哈希表的每个桶中构造一个HLL数据结构,可以估计基于lsh的搜索的计算成本,进而确定使用lsh搜索还是线性搜索的条件。本文提出了一种基于lsh搜索和线性搜索相结合的混合搜索策略,用于求解高维空间中的rNNR。原创 2022-09-30 16:01:43 · 9 阅读 · 0 评论 -
DB-LSH: Locality-Sensitive Hashing with Query-based Dynamic Bucketing
在DB-LSH的查询阶段,通过基于索引的窗口查询,动态构造满足查询要求的超立方桶,从而高效地生成少量高质量的候选集。灰色的交叉区域是C2的搜索区域。DB-LSH解耦了(K,L)-索引的哈希和分桶过程,使得可以回答任何r的(r, c)-NN查询,以及任何的c- ann查询。DB-LSH利用在索引阶段为(1,c)-NN建立的(K,L)-索引,可以直接回答任意搜索半径r的(r, c)-NN查询。本文提出了一种新颖的(K,L)-索引方法,以查询为中心的动态分桶策略DB-LSH来解决高维c-ANN搜索问题。原创 2022-09-30 15:33:59 · 27 阅读 · 0 评论 -
LSHiForest: A Generic Framework for Fast Tree Isolation based Ensemble Anomaly Analysis
特别是,具有核化LSH族或基于学习的哈希方案的框架实例可以检测复杂的异常,如本地或包围的异常。形式化地表明,现有的基于树隔离的检测方法是该框架的特殊情况,具有相应的距离度量。该框架具有通用性,可以实例化多种LSH族,快速隔离机制可以扩展到任何定义了LSH族的距离度量、数据类型和数据空间。异常或离群点检测是大数据分析中的一个主要挑战,因为异常模式在广泛的应用中为决策提供了有价值的见解。最近提出的基于树隔离机制的异常检测方法具有对数时间复杂度,速度非常快,能够高效地处理大数据集。原创 2022-09-30 14:19:03 · 21 阅读 · 0 评论 -
Multi-Probe LSH: Efficient Indexing for High-Dimensional Similarity Search
理想情况下,我们希望检查成功率最高的桶。与基于信息熵的LSH方法相比,multi-probe LSH方法在达到相同搜索质量的前提下,查询时间更短,所需的哈希表数量减少了5 ~ 8倍。考虑每个哈希函数的q在其插槽中的位置的想法源自Panigrahy对他的基于熵的LSH方案的分析。基于局部敏感哈希的特性,与两步远的桶相比,一步远的桶(即与查询对象的M个哈希值只有一个不同的哈希值)更有可能包含接近查询对象的对象。通过使用多个扰动向量,我们定位了更多的哈希桶,这些桶可能靠近查询对象的桶,并且可能包含q的最近邻居。原创 2022-09-30 12:19:38 · 19 阅读 · 0 评论 -
LSH Forest: Self-Tuning Indexes for Similarity Search
相似性索引在很多场景下都很重要:网络搜索引擎需要快速、并行、基于内存的索引来进行文本数据的相似性搜索;然后,我们可以在所有标签的集合上构建一个(逻辑上的)前缀树,每个叶子节点对应一个点。我们称这棵树为LSHTree。(a)消除了LSH必须不断手动调整的不同数据依赖参数,(b)在保持相同的存储和查询开销的同时,改进了LSH对倾斜数据分布的性能保证。具体来说,每个点的标签要足够长,以确保每个点都有一个不同的标签。每棵LSH树都是由h中独立绘制的随机哈希函数序列构建的,我们称这个l树的集合为LSHForest。原创 2022-09-29 23:34:21 · 39 阅读 · 0 评论 -
Trajectory-driven Influential Billboard Placement
直观地说,我们将U划分为一组小的簇,为每个簇计算局部有影响力的广告牌,并将它们合并以生成U的全局有影响力的广告牌。经过仔细的研究,我们观察到,在现实世界中,大多数轨迹都跨越一个小的区域.值得注意的是,在u中可能存在多个θ-分区.寻找一个好的θ-划分并不是微不足道的,因为它可以建模为平衡k-切割问题,其中图中的每个顶点是一个广告牌,每条边表示两个影响重叠的广告牌,这被发现是np难的.给定重叠率,我们提出θ-partition的概念来权衡簇的大小和簇的重叠,其中θ是一个用户定义的参数,用于控制划分的粒度。原创 2022-09-24 16:45:44 · 5 阅读 · 0 评论 -
Approximate Range Thresholding
给定一个实数,系统的任务是捕获s(q)≥(1−ε)·τ(q)的第一个时刻和s(q)≥τ(q)的第一个时刻之间的任意时刻。由于完整的段树捕获每个维度上的所有可能端点,因此在查询插入和删除中,树的结构是静态的(即固定的)。一旦查询q在系统中注册,定义s(q)为满足以下条件的元素的总权重:(i)它们在q注册之后到达,(ii)它们在范围R(q)内。每个元素e都用d维空间中的点v(e)表示,其权值为正整数w(e)一旦查询q被注册,让s(q)表示元素的总权重(i)在q注册后到达,(ii)在查询范围R(q)。原创 2022-09-23 20:00:02 · 4 阅读 · 0 评论 -
Graph-based Nearest Neighbor Search: From Practice to Theory
然而,关于其理论保证的研究却很少。本文填补了这一空白,并严格分析了基于图的神经网络算法的性能,特别是关注低维(d原创 2022-09-21 11:47:10 · 10 阅读 · 0 评论 -
Fast Approximate Similarity SearchBased on Degree-Reduced Neighborhood Graphs
该方法利用具有相异度的对象集构造降度k-DR图作为搜索索引,并使用贪婪搜索(GS)算法从多个初始顶点开始并行处理,沿着k-DR图的边进行搜索。在图构建阶段,确定k- dr图的结构参数k,使具有多个初始顶点的图至少一次搜索成功的概率大于给定的成功概率。我们首先在定义1中定义了查询顶点q∈X的域,这是理解所提出的近似方法的关键概念,然后解释了q的域与贪婪搜索(GS)算法的成功概率之间的关系,该算法找到离q最近的目标顶点X∗(q),从图中X中的所有顶点中均匀随机选择的初始顶点Γ。原创 2022-09-21 11:40:40 · 5 阅读 · 0 评论 -
SK-LSH : An Efficient Index Structure for Approximate Nearest Neighbor Search
ANN搜索的关键操作是在L个 B+-树中找到下一个要访问的数据页,这可以通过对所有B+-树的数据页进行双向扩展来完成。实际上,有序数据集中的数据点存储在连续的磁盘页中,每个随机I/O读取磁盘页一次。基于新的距离度量和复合散列键的线性序关系,提出了一种新的索引结构——SK-LSH (SortingKeys-LSH),以磁盘页为单位对候选散列键进行验证。人工神经网络搜索过程中,只需访问少数索引文件中有限数量的磁盘页面即可进行充分的候选生成和验证,这不仅大大减少了响应时间,而且提高了返回结果的准确性。原创 2022-09-21 11:06:01 · 16 阅读 · 0 评论 -
Query-Aware Locality-Sensitive Hashing for Approximate Nearest Neighbor Search
然而,更接近查询的对象可能被划分到不同的桶中,这是我们不希望看到的。总之,我们提出了一种新的查询感知的桶划分概念,并据此开发了新的查询感知的LSH函数。在4个真实数据集上的实验结果表明,在高维欧氏空间中,QALSH的查询性能优于C2LSH和LSB-Forest,且具有较好的查询质量保证。1. 查询无关的桶分区可能会导致一些不希望出现的情况:接近查询的对象可以被划分到不同的桶中。查询感知的LSH函数是一个随机投影与查询感知的桶划分相耦合的过程,从而消除了传统查询无关LSH函数所需要的随机移位。原创 2022-09-20 23:54:34 · 15 阅读 · 0 评论 -
PQBF: I/O-Efficient Approximate Nearest Neighbor Search by Product Quantization
在搜索过程中,我们选择最接近查询的最有希望的分区,在相应的PQB+-树上进行相似性搜索,并将每个选择的分区的结果聚合为最终结果。创新点:1)论文使用PQ方法实现最近邻相似性检索,考虑了I/o问题,2)将PQ编码建模成PQB+树结构,能够实现有效扩展:3)在具体技巧上 考虑了编码计算的下界问题 4)其次考虑使用z-order方法,即为Permutation ofCodewords,将相似码字放到一起,来降低I/o。通过专注于选择的几个最接近查询的分区,以及pqb +-树的剪枝能力,搜索过程大大加快。原创 2022-09-20 23:07:04 · 18 阅读 · 0 评论 -
Approximate Nearest Neighbor Search on HighDimensional Data — Experiments, Analyses, and Improvemen
研究(1)是跨学科的(包括不同领域和从业人员的16种算法),评估了各种设置,包括20个数据集、几种评估指标和不同的查询工作负载。们在这类中评估的一些示例方法包括近邻敏感的哈希[35],选择性哈希[19],锚图哈希[30],可扩展的图哈希[28],邻域近似索引[34]和最优乘积量化[20]。此外,还对Small World (SW[31])和Rank Cover Tree (RCT[23])两种具有代表性的方法进行了评价。将常用的kNN算法分为三类:基于lsh的、基于空间划分的和基于邻域的。原创 2022-09-20 21:42:42 · 18 阅读 · 0 评论 -
A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate Nearest Neighbor
在过去的十年中,基于图的人工神经网络算法一直是该领域的主导范式,提出了数十种基于图的人工神经网络算法。该研究产生了新的发现,提供了几个有用的原则来改进算法,从而设计了一种优于最先进算法的优化方法。如图1所示,基于图的ANNS算法在原始数据集(图1(b))上构建图索引(图1(b)),图中的顶点对应于原始数据集的点,相邻顶点(标记为𝑥,𝑦)通过评估它们的距离𝛿(𝑥,𝑦)与边关联,其中𝛿是距离函数。根据[77]的评价,与非基于图的指标相比,NSW在效率和有效性之间提供了有限的最佳权衡,因为它的搜索。原创 2022-09-20 20:04:26 · 14 阅读 · 0 评论 -
SRS: Solving c-Approximate Nearest Neighbor Queriesin High Dimensional Euclidean Space with a Tiny
我们唯一需要的是索引支持增量k- nn搜索,即在返回第k个最近的数据点后,可以高效地计算与查询点的(k+1)个最近的数据点。在精心选择的κ下,我们在κ·r处进行切割,根据推论2,截断线左侧两条曲线的pdf下的区域是总概率乱团,根据推论2,(i)首先,给定到查询点的距离分别为r和c·r的两个点o1和o2, o2的投影距离小于o1的可能性较小;本文提出一种非常简单的算法来解决c-ANN问题,具有(1)严格的理论保证,(2)需要一个非常小的指标,以及(3)比现有方法提供优越的经验性能。在算法设计和分析上很严谨。原创 2022-09-20 15:23:36 · 5 阅读 · 0 评论 -
Fast Approximate Nearest Neighbor Search With The Navigating Spreading-out Graph
然后,我们提出了一种新颖的图结构,称为单调相对邻域图(Monotonic Relative Neighborhood graph, MRNG),它保证了非常低的搜索复杂度(接近对数时间)在本节中,我们将介绍一种实用的方法,通过近似我们的MRNG,并从四个标准开始,为ann设计一个良好的图。在介绍我们的建议之前,我们将首先详细分析一类称为单调搜索网络(MSNET)的图,它在[13]中首次讨论,并在人工神经网络中显示出巨大的潜力。因此,RNG的搜索路径长度没有理论保证,在RNG上的搜索可能会出现较长的绕路。原创 2022-09-20 12:36:52 · 43 阅读 · 0 评论 -
HVS: Hierarchical Graph Structure Based on Voronoi Diagramsfor Solving Approximate Nearest Neighbor
多个Voronoi图构成了一个层次结构,其中上层中的种子点(用于生成Voronoi图的点)也是下层的种子点。在确定所有层中所有的Voronoi单元后,丢弃不含数据点的单元,然后连接剩余的单元。可见,种子点的选择起着至关重要的作用在这个过程中。(2) HVS可以从上层返回的多个Voronoi单元中搜索基础层,以保证较高的查询精度,而NSG和HNSW由于索引的限制只能从单个数据点搜索基础层。在这里,第一个因素至关重要,因为在数据密度高的区域搜索是困难的,这需要粗粒度的Voronoi单元来区分内部的点。原创 2022-09-20 11:52:30 · 25 阅读 · 0 评论 -
GraSP: Optimizing Graph-based Nearest Neighbor Search with Subgraph Sampling and Pruning
然后,GraSP执行一种新的子图采样和迭代细化方法,基于单个边的联合概率来学习重要的边,以最大化图上的精度和最小化期望的搜索复杂度。首先,引入了一种新的概率模型,称为可退火相似图(ASG)(第4.1节),将图的每条边都关联到一个可学习的边概率,该概率表明是保留还是删除该边。基于图的神经网络的边访问的频率分布可能是高度倾斜的。在此过程中,现有方法通过添加多样化的边(例如,添加短程链接以创建密集连接的局部簇和连接这些簇的长程链接)和删除不必要的边(例如,使节点不超过预定义的出度上限)来改进图的可导航性。原创 2022-09-19 21:22:47 · 15 阅读 · 0 评论 -
Adaptive Hybrid Indexes
因此,我们在N𝑐中的所有节点上运行top-𝑘分类,其中𝑐是当前epoch,而在𝑐期间未采样的节点被认为是冷的。在图4中,我们展示了应用于具有性能优化和空间优化的叶节点编码的树的方法的概念概述,该编码类似于4.1节中提出的混合B+树(有关实现细节,请参阅3.1节)。给定一个无限的索引查询流,其中键遵循未知的分布,该方法自适应地调整每个节点 的布局,使"热"节点使用性能优化的格式编码,而"冷"节点被高度压缩。此外,该框架将所有与索引相关的代码从采样和分类逻辑中分离出来,从而可以轻松地集成到现有的索引和系统中。原创 2022-09-19 16:53:38 · 7 阅读 · 0 评论 -
MP-RW-LSH: An Efficient Multi-Probe LSH Solution to ANNS-L1
本文提出MP-RW-LSH,第一个也是迄今为止唯一一个在L1距离上的人工神经网络的多探针LSH解决方案,并表明它在可扩展性和查询效率之间取得了比所有现有的基于LSH的解决方案更好的权衡。最后,作为一个用例,用MP-RW-LSH作为基础的" ANNS-L1引擎",构建了一种新的ANNS-E (E表示编辑距离)解决方案,超越了最先进的技术。在本节中,我们首先描述随机游走LSH (RW-LSH),一种用于ANNS-L1的新LSH方案。然后描述了MP-RW-LSH算法,即rw - lsh算法的多探针增强算法。原创 2022-09-19 15:25:06 · 9 阅读 · 0 评论 -
To Index or Not to Index: Optimizing Exact Maximum Inner Product Search
精确最大内积搜索(MIPS)是推荐系统和高维相似性搜索中的一项重要任务。解决精确MIPS的蛮力方法在计算上是昂贵的,因此刺激了针对该任务的新索引和剪枝技术的最新发展。本文展示了一种硬件高效的蛮力方法——阻塞矩阵乘法(BMM),对于某些(但不是所有)输入,其性能可以超过最先进的MIPS求解器一个数量级。随后,讨论了该索引的正确性、实现细节和性能考虑。在广泛研究的MIPS数据集上,OPTIMUS和MAXIMUS的性能平均比最先进的MIPS求解器高出3.2倍,最高可达10.9倍。原创 2022-09-19 13:56:56 · 4 阅读 · 0 评论 -
Fast and Exact Outlier Detection in Metric Spaces: A Proximity Graph-based Approach
在邻近图中,一个对象𝑝是一个顶点,每个对象都有到它的一些相似对象的链接,如图1所示,它假定为欧几里得空间。阅读者总结:文中基于图的结构实现异常检测,但是整个过程都在构建临近图结构,这种基于图的异常检测算法很难理解,这类结构不像是图上的异常检测算法,不太清楚。为了准确地将𝑝识别为过滤阶段的内点(即,减少𝑓),邻近图𝐺应该具有从𝑝到其邻居的路径,可以通过GreedyCounting遍历。随着大内存计算环境的普及,建立内存索引并基于其进行离群点检测成为可能,这是一种快速的基于距离的离群点检测方法。原创 2022-09-19 12:01:46 · 5 阅读 · 0 评论 -
ProMIPS: Efficient High-Dimensionalc-Approximate Maximum Inner Product Search with a Lightweight In
此外,在从磁盘获取点时,它还会导致额外的页面访问。与标准的iDistance不同,为了避免过多不必要的搜索区域,我们采用了不同的划分模式,如图3所示。给定一个以查询点为中心的搜索球,8个子分区中的2个子分区与给定的球相交,这些子分区中的点被选为候选点。此外,与现有的基准方法相比,所提方法在整体比率和查全率方面具有较高的搜索质量,在页面访问效率和运行时间方面具有较高的性能。虽然它是针对欧氏距离设计的,但由于两点之间的欧氏距离可以由内积和2-范数计算得到,因此它为解决c-AMIP搜索问题提供了一个新的角度。原创 2022-09-18 22:44:22 · 27 阅读 · 0 评论 -
Fast Similarity Computation for t-SNE
提出的F-tSNE通过计算图拉普拉斯的LDL分解来降低基于随机游走的t-SNE的计算成本,然而,由于需要计算所有数据点对的相似度,它的计算成本是数据点数量的二次函数。使用t-SNE的一种实际方法是基于随机游走的t-SNE。通过将问题表述为回归任务,通常使用执行历史来训练ML模型来预测执行成本[5,27,31,49]然后,索引调优器可以使用ML模型的预测成本,而不是查询优化器的估计成本。训练分类器来决定一对计划中哪个计划的执行成本更低,这比使用(学习或分析的)成本模型来比较成本的准确率更高。原创 2022-09-18 21:24:32 · 12 阅读 · 0 评论 -
Entropy-Learned HashingConstant Time Hashing with Controllable Uniformity
熵学习哈希1)建模并估计输入数据的随机性(熵),然后2)创建特定于数据的哈希函数,该函数只使用需要区分输出的数据部分。由此产生的哈希函数极大地减少了所需的计算量,同时证明了其输出与传统哈希函数的输出相似。测试了不同的核心哈希操作(如哈希表、布隆过滤器和分区)的熵学习哈希,与谷歌和Meta大规模使用的类内最好的哈希函数和实现相比,吞吐量分别提高了3.7倍、4.0倍和14倍。最后,它使用运行时信息,如所需的Bloom过滤器或哈希表的大小或分区中的分区数量,以选择在𝐿中使用哪些字节(章节5)。原创 2022-09-18 19:41:33 · 10 阅读 · 0 评论 -
VHP: Approximate Nearest Neighbor Search via Virtual Hypersphere Partitioning
在处理查询时,VHP协调地不断增大物理超球的半径,相当于扩大虚拟超球,以容纳更多的候选对象,直到满足成功概率。严格的理论分析表明,该算法能够以概率保证支持任意小的c≥1的c- ann搜索。在处理查询时,VHP协调地不断增大物理超球的半径,相当于扩大虚拟超球,以容纳更多的候选对象,直到满足成功概率。在各种数据集上进行的广泛实验,包括数十亿规模的数据集,表明VHP可以在效率和准确性之间实现不同的权衡,在运行时间上比最先进的方法提高了2倍。超球体的搜索空间是各向同性的、有界的,因此比现有的搜索空间更有效。原创 2022-09-18 19:04:49 · 9 阅读 · 0 评论 -
SuRF: Practical Range Query Filtering with Fast Succinct Tries(sigmod2018 huancheng zhang)
本文提出了简洁Succinct Range Filter(SuRF),一种用于近似隶属度测试的快速而紧凑的数据结构。与传统的布隆过滤器不同,SuRF既支持单键查找,也支持常见的范围查询:开放范围查询、封闭范围查询和范围计数。SuRF基于一种新的数据结构——快速简洁的Trie (FastSuccinct Trie, FST),它与最新的保序索引的点和范围查询性能相匹配,而每个Trie节点只消耗10比特。SuRF算法中点查询和范围查询的误报率都是可调的,以满足不同的应用需求。评估了RocksDB中的SuRF,将原创 2022-09-18 16:07:28 · 35 阅读 · 0 评论 -
LazyLSH: Approximate Nearest Neighbor Search for Multiple Distance Functions with a Single Index
当前基于lsh的方法的目标是L1和L2空间,而如之前的工作所示,分数距离度量(Lp度量)可以为数据挖掘和多媒体应用提供比通常的L1和L2指标更有洞察力的结果。在本文中,我们提出了LazyLSH,它可以在理论上保证的情况下回答多个Lp指标的近似最近邻查询。与以往需要为每个查询空间建立一个专用索引的LSH方法不同,LazyLSH使用一个基索引来支持多个Lp空间的计算,大大减少了维护开销。在本文中,我们提出了一种新颖的方法——LazyLSH,它可以使用不同的分数距离度量和单个LSH索引处理近似最近邻查询。原创 2022-09-18 12:14:27 · 6 阅读 · 0 评论