自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(125)
  • 收藏
  • 关注

原创 arXiv2023 | 联合embedding优化的自适应近似最近邻搜索(AdANNS)

本文指出当前ANNS使用固定的向量表示(rigid representation),而不是自适应的向量表示(adaptive representation)。一般而言,在当前的ANNS方法中,不同的阶段一般需要不同的向量表示粒度(granularities)。尽管当前一些降维方案比如PQ,随机映射等可以改变向量表示,但这会带来严重的精度损失。本文在embedding过程便考虑向量表示的自适应性,带来显著的精度和效率收益。简单地说,MRs得到一种嵌套向量表示结构,即低维向量表示是高维向量表示的前缀。

2023-06-09 22:37:12 321

原创 SIGMOD2023|高维近似最近邻搜索:可信高效的距离比较操作

(1)在做hypothesis testing时,论文采用的取样维数步长是16,32,64时效果较好,但这三者之间性能差别不大,更大的情况不知效果如何,这可能要求原始向量维度非常高时才能取得比较好的效果。从候选中选出结果:对于一个候选o,一个距离门槛r(比如一个有序KNN集合里,距离查询第k远的对象与查询的距离),如果o小于r则加入KNN集合,否则排除。最终的KNN集合作为结果返回。ADSampling自适应地确定具体取样的维数,具体地,它增量地取样一个转移向量的维数直到能够自信地做出距离比较的决定。

2023-05-29 11:34:15 958

原创 内存-磁盘混合存储支撑亿级向量近似最近邻搜索(SPANN)

论文题目:SPANN : Highly-efficient Billion-scale Approximate Nearest Neighbor Search,2021年发表在NeurIPS上,论文作者:Qi Chen, Bing Zhao, Haidong Wang, Mingqin Li, Chuanjie Liu, Zengzhong Li1, Mao Yang, Jingdong Wang,单位:Microsoft, Peking University, Tencent, Baidu。...

2022-08-10 18:43:16 848

原创 层次Voronoi Diagrams更好地为HNSW的最底层获取入口点优化近似最近邻搜索(HVS)

本文主要关注基于graph的ANNS,认为当前graph算法主要关注如何选边以缩短搜索路径,但没有关注每一跳(hop)的计算成本。因此,本文提出一种新的graph算法——HVS (Hierarchical Voronoi Structure),它通过由粗到细的方式执行一系列子空间划分形成层次结构,在每一层通过Voronoi cell加速搜索,降低了总的搜索成本。...

2022-08-10 15:53:05 340

原创 面向大规模向量搜索引擎的内存-硬盘优化的近似最近邻搜索算法(GRIP)

论文题目:GRIP: Multi-Store Capacity-Optimized High-Performance Nearest Neighbor Search for Vector Search Engine,2019年发表在CIKM上,论文作者:Minjia Zha, Yuxiong He,单位:Microsoft AI and ResearchGRIP中GRI表示GraphRoutingIndex,P表示本文对PQ优化时采用的PDV, 即Partial distance value。索引。...

2022-08-10 12:00:51 648

原创 基于近邻图的近似最近邻搜索(学习裁边)

个人主页简介论文题目:GraSP: Optimizing Graph-based Nearest Neighbor Search with Subgraph Sampling and Pruning,2022年发表在WSDM会议上。论文根据查询的分布学习裁边(learn to prune)。主要内容论文指出基于近邻图的ANNS算法构建面临一个问题是:通过一些启发式规则开发不同的图索引结构,并没有直接从在线搜索效率的角度直接优化图索引,这使得它们在一些数据集上表现较好,在另一些数据集上表现较差。本文

2022-04-03 22:16:18 1323

原创 倒排索引在亿级向量数据近似最近邻搜索下的优势(IVF-HNSW)

个人主页简介论文题目:Revisiting the inverted indices for billion-scale approximate nearest neighbors,2018年发表在ECCV会议上。论文在分析inverted index在大规模数据上的优势(vs. IMI)并借助proximity graph (HNSW)缓解其不足,在billion-scale数据上实现更优ANNS。主要内容提出grouping和pruning策略优化inverted index,提升压缩精度和查询

2022-04-03 22:11:13 2482

原创 基于异构内存的亿级向量数据近似最近邻搜索(HM-ANN论文笔记)

个人主页简介论文题目:HM-ANN: Efficient Billion-Point Nearest Neighbor Search on Heterogeneous Memory,2020年发表在NeurIPS会议上。论文在异构内存(HM)上优化实施基于近邻图的ANNS算法实现高效单机亿级搜索。主要内容论文指出当前大规模ANNS受到内存限制,一些压缩方案损失了精度。本文主要利用数据和内存(HM)的异质性,不压缩数据,实现了单节点亿级ANNS。主要是借助新型硬件HM,它包含快内存(fast mem

2022-04-03 22:03:18 750

原创 DiskANN十亿级规模向量检索方案论文浅谈

论文信息题目:DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node作者:Suhas Jayaram Subramanya, Devvrit, Rohan Kadekodi, Ravishankar Krishaswamy, Harsha Vardhan Simhadri; 发表于NeurIPS 2019前言一些优秀的中文解读:(1)https://www.jianshu.com/p/07ed2202

2021-12-25 19:21:32 713

原创 Joint Visual-Textual Embedding for Multimodal Style Search (图像+文本多模态检索)

文章总结视觉时装搜索时能够操纵属性是一个有意义的场景。文章的背景主要是应用导向的。面向的场景是,用户在搜索一个商品时,给出一张照片和一些文本描述,并通过文本描述修改照片的某些内容。本文的解决思路是将图像和文本嵌入到一个公共空间,通过查询给出的图像嵌入和文本嵌入之间的算术运算构建该空间中的一个新向量(对应用户的目标),用该新向量通过相似度计算检索用户的目标。下图清楚展示了这一过程。研究内容概述一个令人惊奇的神器:向量的算术性质“Paris” - “France” +“Italy” = “Rome

2021-10-30 21:19:29 935

原创 CVPR2018-Link and code: Fast indexing with graphs and compact regression codes (图结构提升向量编码精度)

论文概述相似性搜索是计算机视觉的一个基础模块。早期,一个图像将会对应几千个向量,因此,使用compact representation非常重要。最近,一个图像对应一个向量(通常从卷积神经网络的激活层提取)。本文大致思路:(1)通过OPQ 压缩原始向量;(2)根据邻居执行量化回归不断优化量化码。通过交替优化学习一个回归码本(该码本即为通过离一个点的最近的几个点重构该点时的权重系数或回归系数或重构系数)以最小化重构误差。贡献:近似一个点时,粗质心比最近邻效果更好。向量能被它的少量邻居的线性组合(带有固

2021-10-30 18:10:05 251

原创 基于近邻图的向量检索算法:单调相对邻域图MRNG的一些重要理论性质

论文信息题目: Understanding and Generalizing Monotonic Proximity Graphs for Approximate Nearest Neighbor Search作者: Dantong Zhu, Minjia Zhang; 于2021年7月27发表在arXiv上。背景理论分析基于图的ANNS算法。为什么基于MRNG构建的近邻图算法普遍具有更好的搜索性能?冲突结点,conflicting nodes (提升搜索性能,非常重要的一个概念!).理论模型

2021-09-18 21:00:20 765

原创 A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate NNS 论文简介

中文简介地址:高维数据检索:基于近邻图的近似最近邻搜索算法实验综述全文arXiv地址:A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate Nearest Neighbor Search论文Researchgate地址:A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate Nearest Neighbo

2021-07-10 16:14:49 367

原创 高维向量相似性搜索新趋势:AI驱动、算法优化、分布式、现代硬件

概览本文是参考文献[1]的简介,这篇论文是一篇tutorial(ICDE2021),主要介绍一些高维相似性搜索的数据科学应用,调查了最近的一些方法,讨论了AI驱动的、渐进式的以及分布式的相似性搜索。应用自动实体解析、数据发现、电力需求分析、推荐系统、聚类、划分、异常检测、生物信息、计算机视觉、安防、金融、药物等。(注:各应用相关文献可参考论文原文,参考文献[1])洞察渐进搜索(progressive search)这个概念我还是第一次看到,不过渐进搜索所表达的思想在之前的一些文献中已有体现。通俗

2021-07-03 17:14:04 481

原创 几种 Proximity Graphs 的单调性分析

引言最近,基于近邻图的近似最近邻搜索算法(ANNS)取得了最优的效率和精度权衡。在图索引上,路径的单调性对相关ANNS算法的搜索性能起着至关重要的影响。几种当前最优的ANNS算法比如HNSW,NSG普遍能使搜索路径尽可能的单调递减,从而避免由于“绕远路”而降低搜索效率。本文介绍的几种proximity graphs是这些ANNS算法的基础,与当前的实用算法相比,这些proximity graphs有着严格的形式化定义,这给理论分析相关性质带来便利,从而也给实用的ANNS算法提供理论保证和优化方向。接下来,

2021-01-16 12:17:42 1233

原创 在centos 6.5上离线升级gcc及make编译遇到的一些错误

依赖安装安装gcc之前一定要先把一些依赖安装好,这里需要先安装gmp,mpfr,mpc三个依赖,如果是离线安装的话,需要在可以联网的地方先下载好(下载地址),编译安装过程可以参考这里(注意:这三个依赖之间也存在依赖关系,安装顺序不能错)。新版本的gcc需要用到isl工具,否则编译项目时可能会报出找不到libisl.so.15错误。离线安装的话,下载地址,可参考这里安装。安装gcc根据自己需要安装的版本下载gcc,具体下载安装过程可参考这里,需要注意的是,在配置的时候根据自己的需要配置,比如,自己的项

2020-11-14 20:03:57 1596

原创 导航小世界图上实现有标签过滤约束的近似最近邻搜索

论文题目Multiattribute Approximate Nearest Neighbor Search Based on Navigable Small World Graph相关信息作者与单位Xiaoliang Xu | Chang Li | Yuxiang Wang | Yixing Xia; Hangzhou Dianzi University出处与时间Concurrency and Computation: Practice and Experience; 2020作者拟解决的主

2020-10-25 18:34:09 517

原创 免密登录远程服务器(适用于命令窗口和VScode)

SSH key若还未生成,可按此方式生成(参考:入口)。我之前已经生成过,mac可通过下面的命令查找。open ~/.ssh公钥传到服务器ssh-copy-id -i ~/.ssh/id_rsa.pub user@remote-host再次登录服务器如果显示让输入passphrase for key,相当于还是要输入一次密码。Enter passphrase for key '/xxx/xxx/.ssh/id_rsa':解决方案,输入下面命令,成功解决问题。ssh-add -K /x

2020-10-16 21:11:56 267

原创 根据查询需求自适应k值构建近邻图|日本电信电话株式会社|SIGKDD CCF A类会议

博客地址:mzwang.top论文题目Fast approximate similarity search based on degree-reduced neighborhood graphs相关信息作者与单位Kazuo AoyamaNTT Communication Science Laboratories, NTT Corporation 2-4, Hikaridai, Seika-cho,Soraku-gun, Kyoto, 619-0237, Japanaoyama.kazuo@l

2020-08-15 15:27:18 597

原创 通过查询历史优化近邻图上的贪婪搜索|树与图联合索引|微软亚洲研究院 CCF A类会议

博客地址:mzwang.top论文题目Query-Driven Iterated Neighborhood Graph Search for Large Scale Indexing相关信息作者与单位Jingdong Wang; Shipeng LiMicrosoft Research Asia, Beijing, P. R. China {jingdw, spli}@microsoft.com出处与时间ACM International Conference on Multimedia (

2020-08-14 20:30:32 566 2

原创 阿里巴巴淘宝拍立淘可视化搜索关键技术 | 二进制分布式近邻图:BDG

论文题目Large-scale visual search with binary distributed graph at Alibaba相关信息作者与单位Kang Zhao, Pan Pan, Yun Zheng, Yanhao Zhang, Changxu Wang, Yingya Zhang, Yinghui Xu, Rong JinMachine Intelligence Technology Lab, Alibaba Group{zhaokang.zk

2020-08-07 19:47:54 661

原创 PAT乙级真题1047 || 编程团体赛(详解,C/C++示例,测试点分析)

编程团体赛题目描述:编程团体赛的规则为:每个参赛队由若干队员组成;所有队员独立比赛;参赛队的成绩为所有队员的成绩和;成绩最高的队获胜。现给定所有队员的比赛成绩,请你编写程序找出冠军队。输入格式:输入第一行给出一个正整数 N(≤10410^...

2020-06-20 10:50:27 433

原创 DiskANN:在单机上快速准确地进行十亿数据最近邻搜索(微软印度研究院)——NeurIPS 2019

博客地址: https://mzwang.top/论文题目DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node相关信息作者与单位Suhas Jayaram Subramanya([email protected]); Carnegie Mellon University;Devvrit([email protected]); University of Texas at Austin;Rohan

2020-06-19 21:02:25 2788 13

原创 同时考虑距离因素和分布因素的多样化近邻图DPG——TKDE顶刊论文阅读笔记

博客地址: https://mzwang.top/论文题目Approximate Nearest Neighbor Search on High Dimensional Data — Experiments, Analyses, and Improvement相关信息作者与单位Wen Li([email protected]); Nanjing Audit University; University of Technology Sydney;Ying Zhang(Ying.Zhang@uts.

2020-05-17 16:25:55 1330

原创 HNSW启发式选边分析

为什么启发式选边?HNSW是增量式构建的,构图时它的启发式的选边策略不仅考虑了相似度问题也考虑了数据的分布问题。因为HNSW是站在近似最近邻搜索的角度去考虑的,而不是站在构建一个尽可能精确的近邻图的角度考虑问题,这可以说是HNSW选用启发式选边的intuition。一个精确的近邻图不一定是最适合近似最近邻搜索的。既考虑相似度问题又考虑数据分布情况的选边策略有很多,这里选用启发式选边有何优势?请看它具体是怎样操作的。怎样启发式选边? 图1 HNSW启发式选边示意图1中绿

2020-05-11 20:18:10 1513 4

原创 多重分治和邻居传播构建高质量近邻图——CVPR论文阅读笔记

博客地址:入口论文题目Scalable k-NN graph construction for visual descriptors相关信息作者与单位Jing Wang([email protected]); Peking University;Jingdong Wang([email protected]); Microsoft Research Asia;Gan...

2020-05-01 10:54:03 851

原创 NN-Descent构建K近邻图——论文超详细注解

论文题目Efficient K-Nearest Neighbor Graph Construction for Generic Similarity Measures相关信息作者与单位Wei Dong([email protected]);Moses Charikar([email protected]);Kai Li([email protected]).D...

2020-04-18 15:01:29 8660 10

翻译 极度快速的近似最近邻搜索算法(EFANNA)-学习笔记

博客地址:www.mzwang.top微信公众号:whenever5225引言极度快速的近似最近邻搜索算法(EFANNA)是NSG的作者之前的一篇论文,这篇论文主要介绍用更快的方法建立KNN图并且建立一个高性能的KNN图索引。这种方法建KNN图时采用类似于Wei等人提出的方案(地址),首先初始化一个KNN图,然后再使用NN-descent的方法精细化KNN图。该论文提出的方法改进了初始化KN...

2020-02-26 23:15:20 5144

原创 M2LSH:基于LSH的高维数据近似最近邻查找算法-阅读笔记

博客地址:mzwang.top论文题目M2LSH:基于LSH的高维数据近似最近邻查找算法相关信息作者与单位李 灿,钱江波,董一鸿,陈华辉宁波大学信息科学与工程学院出处与时间电子学报;2017年6月作者拟解决的主要问题虽然位置敏感哈希(LSH)算法在解决高维空间中近邻问题上取得了非常瞩目的成就,但在处理高维数据时却很少考虑分布不均的情况。在LSH算法的基础上,本文针对高维数据分布...

2020-02-20 11:45:49 864

原创 PAT乙级真题1095 || 解码PAT准考证(详解,C/C++示例,测试点分析)

解码PAT准考证题目描述:PAT 准考证号由 4 部分组成:第 1 位是级别,即 T 代表顶级;A 代表甲级;B 代表乙级;第 2~4 位是考场编号,范围从 101 到 999;第...

2020-01-16 19:49:35 508

原创 PAT乙级真题1094 || 谷歌的招聘(详解,C/C++示例,测试点分析)

个人博客:https://mzwang.top谷歌的招聘题目描述:2004 年 7 月,谷歌在硅谷的 101 号公路边竖立了一块巨大的广告牌(如下图)用于招聘。内容超级简单,就是一个以 .com 结尾的网址,而前面的网址是一个 10 ...

2020-01-16 19:43:40 1086 2

原创 PAT乙级真题1093 || 字符串A+B(详解,C/C++示例,测试点分析)

字符串A+B题目描述:给定两个字符串 A 和 B,本题要求你输出 A+B,即两个字符串的并集。要求先输出 A,再输出 B,但重复的字符必须被剔除。输入格式:输入在两行中分别给出 A 和...

2020-01-16 19:38:12 976 1

原创 PAT乙级真题1092 || 最好吃的月饼(详解,C/C++示例,测试点分析)

个人博客:https://mzwang.top最好吃的月饼题目描述:月饼是久负盛名的中国传统糕点之一,自唐朝以来,已经发展出几百品种。若想评比出一种“最好吃”的月饼,那势必在吃货界引发一场腥风血雨…… 在这里我们用数字说话,给出全......

2020-01-16 19:34:19 835

原创 PAT乙级真题1091 || N-自守数(详解,C/C++示例,测试点分析)

个人博客:https://mzwang.topN-自守数题目描述:如果某个数 K 的平方乘以 N 以后,结果的末尾几位数等于 K,那么就称这个数为“N-自守数”。例如 3×922=25392,而 25392 的末尾两位正好是 92,所...

2020-01-16 19:29:31 798

原创 PAT乙级真题1090 || 危险品装箱(详解,C/C++示例,测试点分析)

个人博客:https://mzwang.top危险品装箱题目描述:集装箱运输货物时,我们必须特别小心,不能把不相容的货物装在一只箱子里。比如氧化剂绝对不能跟易燃液体同箱,否则很容易造成爆炸。本题给定一张不相容物品的清单,需要你检查每......

2019-12-30 20:26:32 613

原创 PAT乙级真题1089 || 狼人杀-简单版(详解,C/C++示例,测试点分析)

【欢迎关注微信公众号:计算机黑科学大全,在对话框回复:PAT乙级真题】获取全部真题详解及代码示例,邀请大家加入PAT算法刷题交流qq群:821388108个人博客:https://mzwang.top狼人杀-简单版题目描述:以下文字摘自《灵机一动·好玩的数学》:“狼人杀”游戏分为狼人、好人两大阵营。在一局“狼人杀”游戏中,1 号玩家说:“2 号是狼人”,2 号玩家说:“3 号是好人”,...

2019-12-30 20:23:57 800

原创 PAT乙级真题1088 || 三人行(详解,C/C++示例,测试点分析)

【欢迎关注微信公众号:计算机黑科学大全,在对话框回复:PAT乙级真题】获取全部真题详解及代码示例,邀请大家加入PAT算法刷题交流qq群:821388108个人博客:https://mzwang.top三人行题目描述:子曰:“三人行,必有我师焉。择其善者而从之,其不善者而改之。”本题给定甲、乙、丙三个人的能力值关系为:甲的能力值确定是 2 位正整数;把甲的能力值的 2 个数字调换位置就...

2019-12-30 20:21:26 671

原创 PAT乙级真题1087 || 有多少不同的值(详解,C/C++示例,测试点分析)

【欢迎关注微信公众号:计算机黑科学大全,在对话框回复:PAT乙级真题】获取全部真题详解及代码示例,邀请大家加入PAT算法刷题交流qq群:821388108个人博客:https://mzwang.top有多少不同的值题目描述:当自然数 n 依次取 1、2、3、……、N 时,算式 ⌊n/2⌋+⌊n/3⌋+⌊n/5⌋ 有多少个不同的值?(注:⌊x⌋ 为取整函数,表示不超过 x 的最大自然数,...

2019-12-30 20:17:13 301

原创 PAT乙级真题1086 || 就不告诉你(详解,C/C++示例,测试点分析)

【欢迎关注微信公众号:计算机黑科学大全,在对话框回复:PAT乙级真题】获取全部真题详解及代码示例,邀请大家加入PAT算法刷题交流qq群:821388108个人博客:https://mzwang.top就不告诉你题目描述:做作业的时候,邻座的小盆友问你:“五乘以七等于多少?”你应该不失礼貌地围笑着告诉他:“五十三。”本题就要求你,对任何一对给定的正整数,倒着输出它们的乘积。输入格式:...

2019-12-30 20:14:25 483

原创 PAT乙级真题1085 || PAT单位排行(详解,C/C++示例,测试点分析)

【欢迎关注微信公众号:计算机黑科学大全,在对话框回复:PAT乙级真题】获取全部真题详解及代码示例,邀请大家加入PAT算法刷题交流qq群:821388108个人博客:https://mzwang.topPAT单位排行题目描述:每次 PAT 考试结束后,考试中心都会发布一个考生单位排行榜。本题就请你实现这个功能。输入格式:输入第一行给出一个正整数 N(≤10510^5105),即考生人...

2019-12-30 20:10:02 623

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除