![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
近似最近邻搜索
文章平均质量分 76
程序员王同学
阅读塑造人生•技术改变世界
展开
-
发表在SIGMOD 2024上的高维向量检索/向量数据库/ANNS相关论文
SIGMOD 2024会议最近刚在智利圣地亚哥结束,有关高维向量检索/向量数据库/ANNS的论文主要有5篇,涉及混合查询(带属性或范围过滤的向量检索)优化、severless向量数据库优化、量化编码优化、磁盘图索引优化。下面对这些论文进行一个简单汇总介绍。原创 2024-06-23 18:39:40 · 695 阅读 · 0 评论 -
SIGMOD2023|高维近似最近邻搜索:可信高效的距离比较操作
(1)在做hypothesis testing时,论文采用的取样维数步长是16,32,64时效果较好,但这三者之间性能差别不大,更大的情况不知效果如何,这可能要求原始向量维度非常高时才能取得比较好的效果。从候选中选出结果:对于一个候选o,一个距离门槛r(比如一个有序KNN集合里,距离查询第k远的对象与查询的距离),如果o小于r则加入KNN集合,否则排除。最终的KNN集合作为结果返回。ADSampling自适应地确定具体取样的维数,具体地,它增量地取样一个转移向量的维数直到能够自信地做出距离比较的决定。原创 2023-05-29 11:34:15 · 1032 阅读 · 0 评论 -
内存-磁盘混合存储支撑亿级向量近似最近邻搜索(SPANN)
论文题目:SPANN : Highly-efficient Billion-scale Approximate Nearest Neighbor Search,2021年发表在NeurIPS上,论文作者:Qi Chen, Bing Zhao, Haidong Wang, Mingqin Li, Chuanjie Liu, Zengzhong Li1, Mao Yang, Jingdong Wang,单位:Microsoft, Peking University, Tencent, Baidu。...原创 2022-08-10 18:43:16 · 961 阅读 · 0 评论 -
层次Voronoi Diagrams更好地为HNSW的最底层获取入口点优化近似最近邻搜索(HVS)
本文主要关注基于graph的ANNS,认为当前graph算法主要关注如何选边以缩短搜索路径,但没有关注每一跳(hop)的计算成本。因此,本文提出一种新的graph算法——HVS (Hierarchical Voronoi Structure),它通过由粗到细的方式执行一系列子空间划分形成层次结构,在每一层通过Voronoi cell加速搜索,降低了总的搜索成本。...原创 2022-08-10 15:53:05 · 372 阅读 · 0 评论 -
面向大规模向量搜索引擎的内存-硬盘优化的近似最近邻搜索算法(GRIP)
论文题目:GRIP: Multi-Store Capacity-Optimized High-Performance Nearest Neighbor Search for Vector Search Engine,2019年发表在CIKM上,论文作者:Minjia Zha, Yuxiong He,单位:Microsoft AI and ResearchGRIP中GRI表示GraphRoutingIndex,P表示本文对PQ优化时采用的PDV, 即Partial distance value。索引。...原创 2022-08-10 12:00:51 · 700 阅读 · 0 评论 -
基于近邻图的近似最近邻搜索(学习裁边)
个人主页简介论文题目:GraSP: Optimizing Graph-based Nearest Neighbor Search with Subgraph Sampling and Pruning,2022年发表在WSDM会议上。论文根据查询的分布学习裁边(learn to prune)。主要内容论文指出基于近邻图的ANNS算法构建面临一个问题是:通过一些启发式规则开发不同的图索引结构,并没有直接从在线搜索效率的角度直接优化图索引,这使得它们在一些数据集上表现较好,在另一些数据集上表现较差。本文原创 2022-04-03 22:16:18 · 1376 阅读 · 0 评论 -
倒排索引在亿级向量数据近似最近邻搜索下的优势(IVF-HNSW)
个人主页简介论文题目:Revisiting the inverted indices for billion-scale approximate nearest neighbors,2018年发表在ECCV会议上。论文在分析inverted index在大规模数据上的优势(vs. IMI)并借助proximity graph (HNSW)缓解其不足,在billion-scale数据上实现更优ANNS。主要内容提出grouping和pruning策略优化inverted index,提升压缩精度和查询原创 2022-04-03 22:11:13 · 2595 阅读 · 0 评论 -
基于异构内存的亿级向量数据近似最近邻搜索(HM-ANN论文笔记)
个人主页简介论文题目:HM-ANN: Efficient Billion-Point Nearest Neighbor Search on Heterogeneous Memory,2020年发表在NeurIPS会议上。论文在异构内存(HM)上优化实施基于近邻图的ANNS算法实现高效单机亿级搜索。主要内容论文指出当前大规模ANNS受到内存限制,一些压缩方案损失了精度。本文主要利用数据和内存(HM)的异质性,不压缩数据,实现了单节点亿级ANNS。主要是借助新型硬件HM,它包含快内存(fast mem原创 2022-04-03 22:03:18 · 791 阅读 · 0 评论 -
DiskANN十亿级规模向量检索方案论文浅谈
论文信息题目:DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node作者:Suhas Jayaram Subramanya, Devvrit, Rohan Kadekodi, Ravishankar Krishaswamy, Harsha Vardhan Simhadri; 发表于NeurIPS 2019前言一些优秀的中文解读:(1)https://www.jianshu.com/p/07ed2202原创 2021-12-25 19:21:32 · 809 阅读 · 0 评论 -
CVPR2018-Link and code: Fast indexing with graphs and compact regression codes (图结构提升向量编码精度)
论文概述相似性搜索是计算机视觉的一个基础模块。早期,一个图像将会对应几千个向量,因此,使用compact representation非常重要。最近,一个图像对应一个向量(通常从卷积神经网络的激活层提取)。本文大致思路:(1)通过OPQ 压缩原始向量;(2)根据邻居执行量化回归不断优化量化码。通过交替优化学习一个回归码本(该码本即为通过离一个点的最近的几个点重构该点时的权重系数或回归系数或重构系数)以最小化重构误差。贡献:近似一个点时,粗质心比最近邻效果更好。向量能被它的少量邻居的线性组合(带有固原创 2021-10-30 18:10:05 · 268 阅读 · 0 评论 -
基于近邻图的向量检索算法:单调相对邻域图MRNG的一些重要理论性质
论文信息题目: Understanding and Generalizing Monotonic Proximity Graphs for Approximate Nearest Neighbor Search作者: Dantong Zhu, Minjia Zhang; 于2021年7月27发表在arXiv上。背景理论分析基于图的ANNS算法。为什么基于MRNG构建的近邻图算法普遍具有更好的搜索性能?冲突结点,conflicting nodes (提升搜索性能,非常重要的一个概念!).理论模型原创 2021-09-18 21:00:20 · 800 阅读 · 0 评论 -
A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate NNS 论文简介
中文简介地址:高维数据检索:基于近邻图的近似最近邻搜索算法实验综述全文arXiv地址:A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate Nearest Neighbor Search论文Researchgate地址:A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate Nearest Neighbo原创 2021-07-10 16:14:49 · 387 阅读 · 0 评论 -
高维向量相似性搜索新趋势:AI驱动、算法优化、分布式、现代硬件
概览本文是参考文献[1]的简介,这篇论文是一篇tutorial(ICDE2021),主要介绍一些高维相似性搜索的数据科学应用,调查了最近的一些方法,讨论了AI驱动的、渐进式的以及分布式的相似性搜索。应用自动实体解析、数据发现、电力需求分析、推荐系统、聚类、划分、异常检测、生物信息、计算机视觉、安防、金融、药物等。(注:各应用相关文献可参考论文原文,参考文献[1])洞察渐进搜索(progressive search)这个概念我还是第一次看到,不过渐进搜索所表达的思想在之前的一些文献中已有体现。通俗原创 2021-07-03 17:14:04 · 514 阅读 · 0 评论 -
几种 Proximity Graphs 的单调性分析
引言最近,基于近邻图的近似最近邻搜索算法(ANNS)取得了最优的效率和精度权衡。在图索引上,路径的单调性对相关ANNS算法的搜索性能起着至关重要的影响。几种当前最优的ANNS算法比如HNSW,NSG普遍能使搜索路径尽可能的单调递减,从而避免由于“绕远路”而降低搜索效率。本文介绍的几种proximity graphs是这些ANNS算法的基础,与当前的实用算法相比,这些proximity graphs有着严格的形式化定义,这给理论分析相关性质带来便利,从而也给实用的ANNS算法提供理论保证和优化方向。接下来,原创 2021-01-16 12:17:42 · 1307 阅读 · 0 评论 -
导航小世界图上实现有标签过滤约束的近似最近邻搜索
论文题目Multiattribute Approximate Nearest Neighbor Search Based on Navigable Small World Graph相关信息作者与单位Xiaoliang Xu | Chang Li | Yuxiang Wang | Yixing Xia; Hangzhou Dianzi University出处与时间Concurrency and Computation: Practice and Experience; 2020作者拟解决的主原创 2020-10-25 18:34:09 · 541 阅读 · 0 评论 -
根据查询需求自适应k值构建近邻图|日本电信电话株式会社|SIGKDD CCF A类会议
博客地址:mzwang.top论文题目Fast approximate similarity search based on degree-reduced neighborhood graphs相关信息作者与单位Kazuo AoyamaNTT Communication Science Laboratories, NTT Corporation 2-4, Hikaridai, Seika-cho,Soraku-gun, Kyoto, 619-0237, Japanaoyama.kazuo@l原创 2020-08-15 15:27:18 · 620 阅读 · 0 评论 -
通过查询历史优化近邻图上的贪婪搜索|树与图联合索引|微软亚洲研究院 CCF A类会议
博客地址:mzwang.top论文题目Query-Driven Iterated Neighborhood Graph Search for Large Scale Indexing相关信息作者与单位Jingdong Wang; Shipeng LiMicrosoft Research Asia, Beijing, P. R. China {jingdw, spli}@microsoft.com出处与时间ACM International Conference on Multimedia (原创 2020-08-14 20:30:32 · 591 阅读 · 2 评论 -
阿里巴巴淘宝拍立淘可视化搜索关键技术 | 二进制分布式近邻图:BDG
论文题目Large-scale visual search with binary distributed graph at Alibaba相关信息作者与单位Kang Zhao, Pan Pan, Yun Zheng, Yanhao Zhang, Changxu Wang, Yingya Zhang, Yinghui Xu, Rong JinMachine Intelligence Technology Lab, Alibaba Group{zhaokang.zk原创 2020-08-07 19:47:54 · 702 阅读 · 0 评论 -
DiskANN:在单机上快速准确地进行十亿数据最近邻搜索(微软印度研究院)——NeurIPS 2019
博客地址: https://mzwang.top/论文题目DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node相关信息作者与单位Suhas Jayaram Subramanya(suhas@cmu.edu); Carnegie Mellon University;Devvrit(devvrit.03@gmail.com); University of Texas at Austin;Rohan原创 2020-06-19 21:02:25 · 3030 阅读 · 13 评论 -
同时考虑距离因素和分布因素的多样化近邻图DPG——TKDE顶刊论文阅读笔记
博客地址: https://mzwang.top/论文题目Approximate Nearest Neighbor Search on High Dimensional Data — Experiments, Analyses, and Improvement相关信息作者与单位Wen Li(Wen.Li@uts.edu.au); Nanjing Audit University; University of Technology Sydney;Ying Zhang(Ying.Zhang@uts.原创 2020-05-17 16:25:55 · 1417 阅读 · 0 评论 -
HNSW启发式选边分析
为什么启发式选边?HNSW是增量式构建的,构图时它的启发式的选边策略不仅考虑了相似度问题也考虑了数据的分布问题。因为HNSW是站在近似最近邻搜索的角度去考虑的,而不是站在构建一个尽可能精确的近邻图的角度考虑问题,这可以说是HNSW选用启发式选边的intuition。一个精确的近邻图不一定是最适合近似最近邻搜索的。既考虑相似度问题又考虑数据分布情况的选边策略有很多,这里选用启发式选边有何优势?请看它具体是怎样操作的。怎样启发式选边? 图1 HNSW启发式选边示意图1中绿原创 2020-05-11 20:18:10 · 1588 阅读 · 4 评论 -
多重分治和邻居传播构建高质量近邻图——CVPR论文阅读笔记
博客地址:入口论文题目Scalable k-NN graph construction for visual descriptors相关信息作者与单位Jing Wang(cis.wangjing@pku.edu.cn); Peking University;Jingdong Wang(jingdw@microsoft.com); Microsoft Research Asia;Gan...原创 2020-05-01 10:54:03 · 884 阅读 · 0 评论 -
NN-Descent构建K近邻图——论文超详细注解
论文题目Efficient K-Nearest Neighbor Graph Construction for Generic Similarity Measures相关信息作者与单位Wei Dong(wdong@cs.princeton.edu);Moses Charikar(moses@cs.princeton.edu);Kai Li(li@cs.princeton.edu).D...原创 2020-04-18 15:01:29 · 9248 阅读 · 10 评论 -
极度快速的近似最近邻搜索算法(EFANNA)-学习笔记
博客地址:www.mzwang.top微信公众号:whenever5225引言极度快速的近似最近邻搜索算法(EFANNA)是NSG的作者之前的一篇论文,这篇论文主要介绍用更快的方法建立KNN图并且建立一个高性能的KNN图索引。这种方法建KNN图时采用类似于Wei等人提出的方案(地址),首先初始化一个KNN图,然后再使用NN-descent的方法精细化KNN图。该论文提出的方法改进了初始化KN...翻译 2020-02-26 23:15:20 · 5256 阅读 · 0 评论 -
M2LSH:基于LSH的高维数据近似最近邻查找算法-阅读笔记
博客地址:mzwang.top论文题目M2LSH:基于LSH的高维数据近似最近邻查找算法相关信息作者与单位李 灿,钱江波,董一鸿,陈华辉宁波大学信息科学与工程学院出处与时间电子学报;2017年6月作者拟解决的主要问题虽然位置敏感哈希(LSH)算法在解决高维空间中近邻问题上取得了非常瞩目的成就,但在处理高维数据时却很少考虑分布不均的情况。在LSH算法的基础上,本文针对高维数据分布...原创 2020-02-20 11:45:49 · 888 阅读 · 0 评论