程序员王同学
码龄4年
  • 55,971
    被访问
  • 118
    原创
  • 25,666
    排名
  • 53
    粉丝
关注
提问 私信

个人简介:阅读塑造人生•技术改变世界

  • 加入CSDN时间: 2018-04-06
博客简介:

whenever5225的博客

查看详细资料
  • 3
    领奖
    总分 208 当月 11
个人成就
  • 获得61次点赞
  • 内容获得36次评论
  • 获得107次收藏
创作历程
  • 3篇
    2022年
  • 7篇
    2021年
  • 19篇
    2020年
  • 91篇
    2019年
成就勋章
TA的专栏
  • 近似最近邻搜索
    20篇
  • 服务器
    1篇
  • 向量编码
    1篇
  • 多模态检索
    1篇
  • 工具配置
    1篇
  • PAT乙级真题详解
    95篇
  • 分享
  • 算法随笔
    2篇
兴趣领域 设置
  • 人工智能
    机器学习
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

基于近邻图的近似最近邻搜索(学习裁边)

个人主页简介论文题目:GraSP: Optimizing Graph-based Nearest Neighbor Search with Subgraph Sampling and Pruning,2022年发表在WSDM会议上。论文根据查询的分布学习裁边(learn to prune)。主要内容论文指出基于近邻图的ANNS算法构建面临一个问题是:通过一些启发式规则开发不同的图索引结构,并没有直接从在线搜索效率的角度直接优化图索引,这使得它们在一些数据集上表现较好,在另一些数据集上表现较差。本文
原创
发布博客 2022.04.03 ·
566 阅读 ·
0 点赞 ·
0 评论

倒排索引在亿级向量数据近似最近邻搜索下的优势(IVF-HNSW)

个人主页简介论文题目:Revisiting the inverted indices for billion-scale approximate nearest neighbors,2018年发表在ECCV会议上。论文在分析inverted index在大规模数据上的优势(vs. IMI)并借助proximity graph (HNSW)缓解其不足,在billion-scale数据上实现更优ANNS。主要内容提出grouping和pruning策略优化inverted index,提升压缩精度和查询
原创
发布博客 2022.04.03 ·
1249 阅读 ·
0 点赞 ·
0 评论

基于异构内存的亿级向量数据近似最近邻搜索(HM-ANN论文笔记)

个人主页简介论文题目:HM-ANN: Efficient Billion-Point Nearest Neighbor Search on Heterogeneous Memory,2020年发表在NeurIPS会议上。论文在异构内存(HM)上优化实施基于近邻图的ANNS算法实现高效单机亿级搜索。主要内容论文指出当前大规模ANNS受到内存限制,一些压缩方案损失了精度。本文主要利用数据和内存(HM)的异质性,不压缩数据,实现了单节点亿级ANNS。主要是借助新型硬件HM,它包含快内存(fast mem
原创
发布博客 2022.04.03 ·
467 阅读 ·
0 点赞 ·
0 评论

DiskANN十亿级规模向量检索方案论文浅谈

论文信息题目:DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node作者:Suhas Jayaram Subramanya, Devvrit, Rohan Kadekodi, Ravishankar Krishaswamy, Harsha Vardhan Simhadri; 发表于NeurIPS 2019前言一些优秀的中文解读:(1)https://www.jianshu.com/p/07ed2202
原创
发布博客 2021.12.25 ·
77 阅读 ·
0 点赞 ·
0 评论

Joint Visual-Textual Embedding for Multimodal Style Search (图像+文本多模态检索)

文章总结视觉时装搜索时能够操纵属性是一个有意义的场景。文章的背景主要是应用导向的。面向的场景是,用户在搜索一个商品时,给出一张照片和一些文本描述,并通过文本描述修改照片的某些内容。本文的解决思路是将图像和文本嵌入到一个公共空间,通过查询给出的图像嵌入和文本嵌入之间的算术运算构建该空间中的一个新向量(对应用户的目标),用该新向量通过相似度计算检索用户的目标。下图清楚展示了这一过程。研究内容概述一个令人惊奇的神器:向量的算术性质“Paris” - “France” +“Italy” = “Rome
原创
发布博客 2021.10.30 ·
205 阅读 ·
0 点赞 ·
0 评论

CVPR2018-Link and code: Fast indexing with graphs and compact regression codes (图结构提升向量编码精度)

论文概述相似性搜索是计算机视觉的一个基础模块。早期,一个图像将会对应几千个向量,因此,使用compact representation非常重要。最近,一个图像对应一个向量(通常从卷积神经网络的激活层提取)。本文大致思路:(1)通过OPQ 压缩原始向量;(2)根据邻居执行量化回归不断优化量化码。通过交替优化学习一个回归码本(该码本即为通过离一个点的最近的几个点重构该点时的权重系数或回归系数或重构系数)以最小化重构误差。贡献:近似一个点时,粗质心比最近邻效果更好。向量能被它的少量邻居的线性组合(带有固
原创
发布博客 2021.10.30 ·
61 阅读 ·
0 点赞 ·
0 评论

基于近邻图的向量检索算法:单调相对邻域图MRNG的一些重要理论性质

论文信息题目: Understanding and Generalizing Monotonic Proximity Graphs for Approximate Nearest Neighbor Search作者: Dantong Zhu, Minjia Zhang; 于2021年7月27发表在arXiv上。背景理论分析基于图的ANNS算法。为什么基于MRNG构建的近邻图算法普遍具有更好的搜索性能?冲突结点,conflicting nodes (提升搜索性能,非常重要的一个概念!).理论模型
原创
发布博客 2021.09.18 ·
189 阅读 ·
0 点赞 ·
0 评论

A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate NNS 论文简介

中文简介地址:高维数据检索:基于近邻图的近似最近邻搜索算法实验综述全文arXiv地址:A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate Nearest Neighbor Search论文Researchgate地址:A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate Nearest Neighbo
原创
发布博客 2021.07.10 ·
140 阅读 ·
0 点赞 ·
0 评论

高维向量相似性搜索新趋势:AI驱动、算法优化、分布式、现代硬件

概览本文是参考文献[1]的简介,这篇论文是一篇tutorial(ICDE2021),主要介绍一些高维相似性搜索的数据科学应用,调查了最近的一些方法,讨论了AI驱动的、渐进式的以及分布式的相似性搜索。应用自动实体解析、数据发现、电力需求分析、推荐系统、聚类、划分、异常检测、生物信息、计算机视觉、安防、金融、药物等。(注:各应用相关文献可参考论文原文,参考文献[1])洞察渐进搜索(progressive search)这个概念我还是第一次看到,不过渐进搜索所表达的思想在之前的一些文献中已有体现。通俗
原创
发布博客 2021.07.03 ·
147 阅读 ·
0 点赞 ·
0 评论

几种 Proximity Graphs 的单调性分析

引言最近,基于近邻图的近似最近邻搜索算法(ANNS)取得了最优的效率和精度权衡。在图索引上,路径的单调性对相关ANNS算法的搜索性能起着至关重要的影响。几种当前最优的ANNS算法比如HNSW,NSG普遍能使搜索路径尽可能的单调递减,从而避免由于“绕远路”而降低搜索效率。本文介绍的几种proximity graphs是这些ANNS算法的基础,与当前的实用算法相比,这些proximity graphs有着严格的形式化定义,这给理论分析相关性质带来便利,从而也给实用的ANNS算法提供理论保证和优化方向。接下来,
原创
发布博客 2021.01.16 ·
505 阅读 ·
0 点赞 ·
0 评论

在centos 6.5上离线升级gcc及make编译遇到的一些错误

依赖安装安装gcc之前一定要先把一些依赖安装好,这里需要先安装gmp,mpfr,mpc三个依赖,如果是离线安装的话,需要在可以联网的地方先下载好(下载地址),编译安装过程可以参考这里(注意:这三个依赖之间也存在依赖关系,安装顺序不能错)。新版本的gcc需要用到isl工具,否则编译项目时可能会报出找不到libisl.so.15错误。离线安装的话,下载地址,可参考这里安装。安装gcc根据自己需要安装的版本下载gcc,具体下载安装过程可参考这里,需要注意的是,在配置的时候根据自己的需要配置,比如,自己的项
原创
发布博客 2020.11.14 ·
317 阅读 ·
0 点赞 ·
0 评论

导航小世界图上实现有标签过滤约束的近似最近邻搜索

论文题目Multiattribute Approximate Nearest Neighbor Search Based on Navigable Small World Graph相关信息作者与单位Xiaoliang Xu | Chang Li | Yuxiang Wang | Yixing Xia; Hangzhou Dianzi University出处与时间Concurrency and Computation: Practice and Experience; 2020作者拟解决的主
原创
发布博客 2020.10.25 ·
229 阅读 ·
0 点赞 ·
0 评论

免密登录远程服务器(适用于命令窗口和VScode)

SSH key若还未生成,可按此方式生成(参考:入口)。我之前已经生成过,mac可通过下面的命令查找。open ~/.ssh公钥传到服务器ssh-copy-id -i ~/.ssh/id_rsa.pub user@remote-host再次登录服务器如果显示让输入passphrase for key,相当于还是要输入一次密码。Enter passphrase for key '/xxx/xxx/.ssh/id_rsa':解决方案,输入下面命令,成功解决问题。ssh-add -K /x
原创
发布博客 2020.10.16 ·
132 阅读 ·
0 点赞 ·
0 评论

根据查询需求自适应k值构建近邻图|日本电信电话株式会社|SIGKDD CCF A类会议

博客地址:mzwang.top论文题目Fast approximate similarity search based on degree-reduced neighborhood graphs相关信息作者与单位Kazuo AoyamaNTT Communication Science Laboratories, NTT Corporation 2-4, Hikaridai, Seika-cho,Soraku-gun, Kyoto, 619-0237, Japanaoyama.kazuo@l
原创
发布博客 2020.08.15 ·
247 阅读 ·
1 点赞 ·
0 评论

通过查询历史优化近邻图上的贪婪搜索|树与图联合索引|微软亚洲研究院 CCF A类会议

博客地址:mzwang.top论文题目Query-Driven Iterated Neighborhood Graph Search for Large Scale Indexing相关信息作者与单位Jingdong Wang; Shipeng LiMicrosoft Research Asia, Beijing, P. R. China {jingdw, spli}@microsoft.com出处与时间ACM International Conference on Multimedia (
原创
发布博客 2020.08.14 ·
186 阅读 ·
0 点赞 ·
2 评论

阿里巴巴淘宝拍立淘可视化搜索关键技术 | 二进制分布式近邻图:BDG

论文题目Large-scale visual search with binary distributed graph at Alibaba相关信息作者与单位Kang Zhao, Pan Pan, Yun Zheng, Yanhao Zhang, Changxu Wang, Yingya Zhang, Yinghui Xu, Rong JinMachine Intelligence Technology Lab, Alibaba Group{zhaokang.zk
原创
发布博客 2020.08.07 ·
425 阅读 ·
0 点赞 ·
0 评论

PAT乙级真题1047 || 编程团体赛(详解,C/C++示例,测试点分析)

编程团体赛题目描述:编程团体赛的规则为:每个参赛队由若干队员组成;所有队员独立比赛;参赛队的成绩为所有队员的成绩和;成绩最高的队获胜。现给定所有队员的比赛成绩,请你编写程序找出冠军队。输入格式:输入第一行给出一个正整数 N(≤10410^...
原创
发布博客 2020.06.20 ·
159 阅读 ·
0 点赞 ·
0 评论

DiskANN:在单机上快速准确地进行十亿数据最近邻搜索(微软印度研究院)——NeurIPS 2019

博客地址: https://mzwang.top/论文题目DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node相关信息作者与单位Suhas Jayaram Subramanya(suhas@cmu.edu); Carnegie Mellon University;Devvrit(devvrit.03@gmail.com); University of Texas at Austin;Rohan
原创
发布博客 2020.06.19 ·
1126 阅读 ·
0 点赞 ·
1 评论

同时考虑距离因素和分布因素的多样化近邻图DPG——TKDE顶刊论文阅读笔记

博客地址: https://mzwang.top/论文题目Approximate Nearest Neighbor Search on High Dimensional Data — Experiments, Analyses, and Improvement相关信息作者与单位Wen Li(Wen.Li@uts.edu.au); Nanjing Audit University; University of Technology Sydney;Ying Zhang(Ying.Zhang@uts.
原创
发布博客 2020.05.17 ·
512 阅读 ·
0 点赞 ·
0 评论

HNSW启发式选边分析

为什么启发式选边?HNSW是增量式构建的,构图时它的启发式的选边策略不仅考虑了相似度问题也考虑了数据的分布问题。因为HNSW是站在近似最近邻搜索的角度去考虑的,而不是站在构建一个尽可能精确的近邻图的角度考虑问题,这可以说是HNSW选用启发式选边的intuition。一个精确的近邻图不一定是最适合近似最近邻搜索的。既考虑相似度问题又考虑数据分布情况的选边策略有很多,这里选用启发式选边有何优势?请看它具体是怎样操作的。怎样启发式选边? 图1 HNSW启发式选边示意图1中绿
原创
发布博客 2020.05.11 ·
815 阅读 ·
0 点赞 ·
3 评论
加载更多