西西弗的小蚂蚁-CSDN博客

原创 Scaling Distributed Machine Learning with the Parameter Server

我们提出了一个用于分布式机器学习问题的参数服务器框架。数据和工作负载都分布在工作节点上，而服务器节点维护全局共享的参数，这些参数表示为密集或稀疏的向量和矩阵。该框架管理节点之间的异步数据通信，支持灵活的一致性模型、弹性伸缩性和持续的容错。为了演示所提框架的可伸缩性，我们展示了在pb级真实数据上的实验结果，包括数十亿个示例和参数，涉及问题从稀疏逻辑回归到潜在狄利克雷分配和分布式草图。

2024-04-25 09:51:41 528

原创神经控制微分方程

受微分方程启发的深度学习是最近的研究趋势，它标志着许多机器学习任务的艺术表现状态。在许多情况下，基于ncde的模型不仅比递归神经网络(RNNs)提供了更好的精度，而且使处理不规则时间序列成为可能。在这项工作中，我们通过重新设计其核心部分，即从离散的时间序列输入生成连续路径，来增强NCDEs。然而，我们建议i)使用编码器-解码器架构生成另一个潜在的连续路径，这对应于NCDEs的插补过程，即我们基于神经网络的插补与现有的显式插补，ii)利用解码器的生成特性，即:如有需要，可超越原始数据的时间域外推。

2024-04-25 09:51:06 186

原创 The Case for Learned Index Structures

无论何时需要有效的数据访问，索引结构都是答案，并且存在各种各样的选择来满足各种访问模式的不同需求。例如，B 树是范围查找的最佳选择（例如，在特定时间范围内检索一段值记录 (Value)）;HashMap 在单 Key 查找这个领域是无敌的;而 Bloom-filter 通常用于检查值记录 (Value) 是否存在。由于数据库和许多其他应用的索引非常重要，因此在过去的几十年里，它们已经得到了广泛的优化，以获得更高的内存、缓存和 CPU 效率 [ 28,48,22,11]。

2024-04-25 09:50:44 332

原创 The Case for Learned Spatial Indexes

我们表明(i)在一个维度上使用过滤时，分区内的机器学习搜索比二进制搜索快11.79%到39.51%，(ii)树结构的瓶颈是索引查找，这可能通过线性化索引分区得到改善(iii)在一维上过滤并使用机器学习的索引进行精炼，比在二维上过滤的最接近的竞争对手快1.23到1.83倍，而且(iv)学习的索引可以对低选择性查询的性能产生显著影响，而在高选择性查询下效率较低。空间数据的指数级增长导致研究界将重点放在构建能够有效处理空间数据的系统和应用程序上。与此同时，最近的研究引入了学习的指标结构。

2024-04-25 09:50:15 113

原创 HINT: A Hierarchical Index for Intervals in Main Memory

在本文中，我们提出了一种新的、高效的内存区间索引HINT，重点关注区间重叠查询，这是许多搜索和分析任务的基本组成部分。HINT应用分层分区方法，它将每个间隔最多分配给每个级别的两个分区，并控制空间需求。我们将存储在每个分区中的信息减少到绝对必要的程度，方法是根据间隔是开始于分区边界内部还是开始于分区边界之前来划分间隔。在不同特征的真实区间集和合成区间集上的实验结果表明，HINT方法通常比现有区间索引方法快一个数量级。索引间隔是一个基本的问题，它的应用范围很广，

2024-04-25 09:50:00 165

原创 NFL: Robust Learned Index via Distribution Transformation

为了实现分布转换的目标，我们提出了一个两阶段归一化-流学习指数框架(NFL)，包括用于分布转换的数值归一化流(Numerical NF)和用于CDF逼近的鲁棒后流学习指数(AFLI)。在这项工作中，我们提出了一种新的方法，在构造学习索引之前，将原始的键转换为一个近似一致的键空间，使学习索引能够更好地逼近CDF。在对数值NF进行转换后，考虑到转换后的键的特点，所提出的AFLI只需要一个简单有效的结构来处理局部冲突，在吞吐量和尾延迟方面都具有较好的性能。为了获得良好的逼近，现有的学习索引提出了各种分割方法。

2024-04-25 09:49:42 259

原创 LHist: Towards Learning Multi-dimensional Histogram for Massive Spatial Data

在大型空间数据库中，数据摘要被广泛应用于提高查询处理速度。受新兴的学习索引技术的启发，本文提出了一种学习数据摘要技术——学习多维直方图(learned多维直方图)，该技术广泛使用的索引结构如b树，可以通过集成简单的机器学习模型来进一步改进。与传统的数据概要技术相比，LHist是完全数据驱动的，易于实现，并有可能实现更好的存储精度权衡。以范围COUNT查询估计为典型任务，在大型真实数据集和综合基准上的大量实验研究表明，LHist在存储成本、查询处理效率和估计精度方面优于现有的概要结构。

2024-04-25 09:49:25 142

原创 APEX: A High-Performance Learned Index on Persistent Memory

最近学习的索引利用了数据分布，并在某些工作负载中显示出了巨大的潜力。但是，它们都不支持持久性或即时恢复，而且现有的基于pm的索引在进化B+树时通常不考虑已学习的索引。本文提出了一种新的pm优化的学习索引APEX，它提供了高性能、持久性、并发性和即时恢复。APEX基于ALEX，一个最先进的可更新的学习索引，结合和适应过去PM优化和学习索引的最佳，允许它减少PM访问，同时仍然利用机器学习。我们对Intel DCPMM的评估表明，APEX的性能比现有的PM指数高出15个百分点，并且可以在42ms内从故障中恢复。

2024-04-25 09:49:10 202

原创强化学习（百浆）

2024-04-25 09:48:53 95

原创 dCAM: Dimension-wise Class Activation Mapfor Explaining Multivariate Data Series Classification

数据序列分类是数据科学中一个重要且具有挑战性的问题。通过找到导致算法做出某些决策的输入的判别部分来解释分类决策是许多应用中真正需要的。卷积神经网络在数据序列分类任务中表现良好;但是，这类算法对多元数据序列的具体情况的解释并不充分。解决这个重要的限制是一个重大的挑战。在本文中，我们提出了一种新的方法，通过突出时间和维度的判别信息来解决这个问题。我们的贡献是双重的:我们首先描述了一个卷积架构，它支持维度的比较;然后，我们提出了一种返回dCAM的方法，这是一种专门为多元时间序列(以及基于cnn的模型)设计的维度类

2024-04-25 09:48:35 251

原创 The Price of Tailoring the Index to Your Data: Poisoning Attacks on Learned Index Structures (2022)

学习索引结构的概念依赖于这样一种思想:数据库索引的输入-输出功能可以被视为一个预测任务，因此，使用机器学习模型而不是传统的算法技术来实现。从这个新奇的角度研究几十年前的问题，在机器学习和数据结构的交叉领域激发了令人兴奋的结果。然而，学习索引结构的优势，即通过底层ml模型调整手头数据的能力，从安全性角度来看可能成为缺点，因为它可能被利用。我们在模型的各种参数化下评估了我们对真实世界和合成数据集的攻击，表明RMI的误差增加到300，其第二阶段模型的误差增加到3000。

2024-04-25 09:48:19 89

原创 COAX: Correlation-Aware Indexingon Multidimensional Data with Soft Functional Dependencies

在本文中，我们提出了一种用于多维数据的学习索引COAX，它学习的不是键的分布，而是数据集属性之间的相关性。在许多数据集中，两个(或多个)属性的值是相关的，这一观察结果推动了我们的方法。COAX利用这些相关性来降低数据集的维度。最近的工作提出了学习索引结构，它可以学习底层数据集的分布以提高性能。对已学习索引的初步研究表明，通过学习数据的累积分布函数，诸如B-Tree之类的索引结构可以将性能提高一个数量级，同时拥有更小的内存占用。

2024-04-25 09:47:59 104

原创 STRODE: Stochastic Boundary Ordinary Differential Equation

从连续获得的感官输入对时间的感知根植于个体有机体的日常行为。然而，大多数时间序列建模的算法无法直接从视觉或音频输入中学习随机事件时间的动态，这需要在训练过程中进行时间注释，而这在现实应用中通常是不可用的。我们的实证结果表明，我们的方法成功地推断事件时间序列数据。与现有的最先进的方法相比，我们的方法在合成和真实数据集上都实现了竞争或优越的性能。

2024-04-25 09:47:41 199

原创第 4 章动态规划算法

本节分别对这两个过程进行详细介绍。4.3.1 策略评估策略评估这一过程用来计算一个策略的状态价值函数主要是当前状态的价值4.3.2 策略提升。

2024-04-25 09:47:19 185

原创强化学习基础

此外，我们还证明了DQN学习到的表示能够泛化为从策略生成的数据，而不是在模拟中，我们将其作为输入呈现给人类和anget玩游戏时所经历的网络游戏状态，记录最后一个隐藏层的表示，并可视化了t-SNE算法生成的嵌入（扩展数据图1和补充讨论）。我们使用了一种特别成功的架构，即深卷积网络，它使用分层的层叠卷积滤波器来模拟感受野的影响，这种效应是由Hubel和Wiesel在早期视觉皮层的前馈处理方面的开创性工作所启发的，从而利用图像中的局部空间相关性，以及增强对自然变化的鲁棒性，如视角或尺度的变化。

2024-04-25 09:46:49 351

原创 A Learning-based Method for Computing Shortest Path Distances on Road Networks（ICDE2021）

在现实世界的许多应用中，计算道路网络上两点之间的最短路径距离是一项核心操作，例如寻找最近的出租车/酒店。然而，现有的技术有一些局限性。针对这些问题，本文提出了一种基于学习的最短距离近似计算方法，该方法能够高效地计算最短距离近似，使得:(1)计算速度非常快，仅需60 ~ 150纳秒;本文提出道路网嵌入(road network embedding, RNE)模型，将道路网上的二维顶点(经度和纬度)嵌入到d维嵌入向量中，利用L1度量来近似最短路径距离，而不是在图上进行搜索(如图1所示)

2024-04-24 09:37:32 142

原创 Multimodal Fusion of Satellite Images and Crowdsourced GPS Traces for Robust Road Attribute Detectio

许多基于机器学习的方法已被提出用于从GPS轨迹、行车记录仪视频或卫星图像中检测道路属性。然而，现有的解决方案大多专注于单一模态，没有考虑多个数据源之间的相关性。为了与卫星图像在空间上进行匹配，将GPS轨迹绘制成一组多通道图像序列，同时捕捉每个像素处GPS点的全局分布、车辆行驶方向和速度的局部分布及其随时间的变化。本文提出了一种多模态道路属性检测方法，通过对众包GPS轨迹信息与卫星图像进行像素级融合，提高了算法的鲁棒性。与已有工作相比，该方法能够大幅度提高道路属性的检测精度。

2024-04-24 09:37:00 146

原创 MAD-SGCN: Multivariate Anomaly Detection with Self-learning Graph Convolutional Networks

当今的信息物理融合系统(cps)是大型且复杂的数据密集型系统。为了准确、及时地检测可能发生的入侵或故障，需要对大量相互连接的传感器和执行器产生的数据进行持续监测和分析。近年来，基于深度学习的多变量时间序列无监督异常检测技术被提出，用于检测CPSs攻击。然而，目前的方法要么受限于其表示学习方法，无法同时有效地编码时间和空间信息，要么无法在没有明确了解不同变量或传感器之间的内部关系的情况下容易扩展到其他任务，而这些变量或传感器对表征CPSs数据至关重要。在4个CPS数据集上的实验验证了所提方法的优越性。

2024-04-24 09:36:45 182

原创 TMN: Trajectory Matching Networks for Predicting Similarity

这些激励我们设计了一个新的基于学习的模型，名为TMN，基于注意力网络，旨在显著提高准确性，以便在相似度计算时间和准确性之间实现更好的权衡。提出的匹配机制通过计算点对的注意力权重来关联轨迹上的点，从而使TMN学会模拟轨迹对之间的相似度计算。除了考虑轨迹间的相互作用外，还考虑了每条轨迹的时序信息，从而充分利用了一对轨迹的空间特征。此外，这些基于学习的模型只是在训练中使用特定相似性度量的轨迹对的相似性分数，而忽略了一个重要的信息:当计算相似性分数时，两个轨迹之间的点的映射很容易获得。

2024-04-24 09:36:32 135

原创 Towards Backdoor Attack on Deep Learning based Time Series Classification

值得注意的是，所提出的框架对广泛的DNN分类器是不可知的。在6个具有代表性的DNN分类器和6个真实数据集上的实验结果验证了所提攻击框架的有效性。在大多数情况下，TimeTrojan以100%的攻击成功率成功注入后门，而不影响模型对干净样本的准确率，这意味着敌手完全控制了DNN分类器的行为。然而，dnn过度的学习能力可能使其容易受到后门攻击的威胁，攻击者在dnn中嵌入隐藏的功能(即后门)，并通过特殊设计的输入(即触发器)激活后门。尽管针对图像和文本领域的后门攻击进行了广泛的研究，

2024-04-24 09:36:17 181

原创 Spatial-Temporal Hypergraph Self-Supervised Learning for Crime Prediction

Sparse Supervision Signal. 目前的时空预测模型在监督学习框架下进行时空预测任务，需要足够的监督标签来学习质量表征。但是，每个细粒度区域的城市犯罪数据极其稀疏，与整个城市空间[41]相比，设计了双阶段自监督学习范式，不仅可以联合捕捉局部和全局层面的时空犯罪模式，还可以通过增强区域自区分能力来补充稀疏犯罪表示。犯罪已成为许多城市关注的主要问题，这就要求及时预测全市范围内的犯罪发生。准确的犯罪预测结果对于政府的事前决策至关重要，可以缓解人们日益关注的公共安全问题。

2024-04-24 09:36:02 151

原创 Fast Adaptive Similarity Search through Variance-Aware Quantization（ICDE 2022）

最先进的方法在试图平衡子空间的相对重要性的同时，在子空间之间均匀分配字典大小。不幸的是，统一的平衡并不总是可以实现的，可能会导致不满意的性能。VAQ利用其固有的降维特性得到子空间，仅部分平衡了子空间的重要性。为了证明VAQ的鲁棒性，对量化、哈希和索引方法进行了广泛的评估，使用五个大规模基准数据集。重要的是，使用100多个数据集进行的严格统计比较表明，即使预算只有一半，VAQ也明显优于竞争方法。值得注意的是，VAQ的简单数据跳跃解决方案实现了与基于索引的方法相竞争或更好的性能，突出了对量化方法新索引的需求。

2024-04-24 09:35:49 101

原创 Practical Approach to Asynchronous Multivariate Time Series Anomaly Detection and Localization

eBay的工程师利用稳健的方法监测IT系统信号以发现异常。然而，信号规模的增长，无论是在体积还是维度上，都超过了传统的统计状态空间或监督学习工具。因此，最近的研究寻求基于无监督深度学习的最新方法。然而，在实现这些方法时，我们遇到了缺陷，例如需要部分监督和高维数据集的弱点，以及本文讨论的其他原因。我们将该方法与公共数据集和eBay数据上最先进的方法进行基准测试，使用它们的参考评估方法。在此基础上，针对现有评价方法的局限性，提出了一种更为现实的评价方法。在现实世界的应用中观察到大量时间序列，

2024-04-24 09:35:02 196

原创 Locally Adaptive Dimensionality Reduction for Indexing Large Time Series Databases（sigmod2002）

之前的技术(如SVD、DFT和DWT)为数据库中的所有项目选择一个共同的表示，以最小化全局重建误差，而APCA用一组不同长度的常值段近似每个时间序列，使它们的单个重建误差最小。在大规模时间序列数据库中进行相似性搜索是近年来的研究热点。这是一个困难的问题，因为数据的维数通常很高。最有希望的解决方案是对数据进行维数约简，许多降维技术已经被提出，包括奇异值分解(SVD)、离散傅里叶变换(DFT)和离散小波变换(DWT)。从理论上和经验上比较了APCA与所有其他技术，并证明了其优越性。

2024-04-24 09:34:34 161

原创 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks

本文提出了一种基于图的轨迹相似性度量方法(Graph-based approach for measurement Trajectory Similarity, GTS)，一种新的用于空间网络相似性计算的轨迹表示学习框架。从轨迹之间的相似性度量开始，这是学习轨迹嵌入的鲁棒框架的第一步。从兴趣点距离、兴趣点轨迹距离和轨迹相似度3个方面定义轨迹相似度，既能反映路网上轨迹之间的关系，又能反映单个轨迹的继承属性。不同于以往在欧氏空间中学习轨迹表示的研究，它不仅需要捕获轨迹的序列信息，还需要捕获空间网络的结构信息。

2024-04-24 09:34:19 119

原创 Multi-Variate Time Series Forecasting on Variable Subsets（KDD2022）

在推理过程中，由于长期的数据丢失，变量是缺失的。传感器故障)或高→低资源域在训练/测试之间切换。据我们所知，在存在此类故障时，MTSF模型的鲁棒性还没有在文献中研究过。通过广泛的评估，本文首先表明，最先进方法的性能在VSF设置中显著下降。本文提出一种非参数的包装技术，可应用于任何现有的预测模型。通过对4个数据集和5个预测模型的系统实验，表明所提出技术能够恢复模型近95%的性能，即使只有15%的原始变量存在。

2024-04-24 09:34:02 109

原创 Representative Routes Discovery From Massive Trajectories(KDD2022)

如交通监控和公共交通规划。操作员是时间敏感的，因为它必须能够适应交通条件变化的结果。首先证明了该问题的np -困难性，然后提出了一系列响应时间短的有效近似解。最后，在两个真实数据集上进行了全面的实验，验证了所提算法的有效性和效率，并证明了所提算法在交通监控任务中的有用性和快速响应时间。

2024-04-24 09:33:49 154

原创 Meta-Learned Metrics over Multi-Evolution Temporal Graphs

Temp-GFSM中的每个组件都回答了以下问题:在时序图中有哪些模式在演变?如何在只有几个标签的指导下学习指标?最后，在多个领域的真实时序图分类任务上的实验结果表明了Temp-GFSM的有效性。然而，在实践中，图通常具有异质动力学(例如，微观和宏观的演化模式)。因此，标记时序图通常是昂贵的，还需要背景知识。图度量学习方法旨在学习图上的距离度量，使相似(如同类)的图更接近，不相似(如不同类)的图距离更远。这在许多图分类应用中至关重要，如药物发现和流行病分类。大多数图度量学习技术认为输入图是静态的，

2024-04-24 09:33:31 179

原创 MDTP: A Multi-source Deep Traffic Prediction Framework over Spatio-Temporal Trajectory Data

在多源连接阶段，提出了两种方法Sum和Concat来连接不同轨迹数据源的特征。在两个真实数据集上的实验表明，与经典的时间序列方法、机器学习方法和最新的基于神经网络的方法相比，MDTP i)具有更高的效率;交通预测因其在交通管理、城市计算、公共安全等领域的广泛应用而受到越来越多的关注。近年来，海量轨迹数据的可用性和深度学习的成功激发了大量深度交通预测研究。然而，现有的基于神经网络的方法往往忽略了位于同一时空交通区域的多种移动对象之间的相关性，这不利于交通预测分析。

2024-04-24 09:33:15 120

原创 Graph Learning: A Survey 阅读笔记

作为一种基于结构和模型的学习方法的补充，GSP为图的谱分析提供了一个新的视角。图学习方法为新的表示空间中的图分析铺平了道路，许多图分析任务，如链接预测、推荐和分类，都可以被有效解决。粗略地说，GSP处理的是图的采样和恢复，以及从数据中学习拓扑结构。基于随机游走的方法包括基于结构的随机游走、基于结构和节点信息的随机游走、异构网络中的随机游走以及 time-varying网络中的随机游走。第二节概述了图学习方法，包括基于图信号处理的方法、基于矩阵分解的方法、基于随机游走的方法和基于深度学习的方法。

2024-04-24 09:32:56 466

原创 Deep Recurrent Q-Learning for Partially Observable MDPs（DRQN）

Abstract　　深度RL已经为复杂的任务提供了精通的控制器。但是，这些控制器的内存有限，并且依赖于能够在每个决策点感知完整的游戏画面。为了解决这些缺点，本文研究了用循环LSTM替换卷积后的第一个全连接层，从而在DQN中增加循环的影响。最终的DRQN尽管每个时间步骤只能看到一个帧，但可以成功地随时间整合信息，并在标准Atari游戏和具有闪烁游戏画面的部分可观察的等效游戏中达到与DQN相当的性能。此外，在接受部分观测值训练并逐步评估更完整的观测值后，DRQN的性能随可观察性而改变。相反，当接受完整观察并经过

2024-04-23 09:50:59 977

原创 prioritized experience replay

经验回放让在线强化学习代理记住和重用过去的经验。在之前的工作中，经验转换是从重播记忆中均匀采样的。然而，这种方法只是简单地以最初体验到的相同频率重播过渡，而不管它们的重要性。，在许多Atari游戏中实现了人类水平的性能。优先体验重放的DQN实现了新的技术水平，在49场比赛中有41场比赛的均匀重放超过了DQN。本文只讨论了后者:在学习中最有效地利用重播记忆，假设它的内容不在我们的控制范围内(参见第6节)。

2024-04-23 09:50:34 183

原创 Trust Region Policy Optimization

这些算法是可扩展的，可以优化具有数万个参数的非线性策略，这些参数此前对无模型策略搜索提出了重大挑战(Deisenroth等人，2013)。实验表明，相同的TRPO方法可以从原始图像中学习复杂的游泳、跳跃和走路策略，以及直接玩Atari游戏。尽管它的近似方法偏离了理论，TRPO倾向于给出单调的改进，几乎没有调整超参数。在本文中，我们描述了一种优化控制策略的方法，具有保证的单调性改进。通过对理论证明的方案进行一些近似，然后对理论证明的算法进行一系列的逼近，得到一个实用的算法，

2024-04-23 09:50:16 137 1

原创 Addressing Function Approximation Error in Actor-Critic Methods

该算法建立在双q学习的基础上，通过取一对批评之间的最小值来限制高估。本文得出了目标网络和过估计偏差之间的联系，建议延迟策略更新，以减少每次更新误差，进一步提高性能。在OpenAI gym任务套件上评估了所提出方法，在每个测试环境中都优于最先进的方法。1）在这篇论文中，我们展示了在行动者-批评者的设置下，时间差分方法的高估偏差和误差累积。这种累积的错误会导致任意糟糕的状态被估计为高值，从而导致次优的策略更新和发散的行为。在深度q学习等基于值的强化学习方法中，众所周知，

2024-04-23 09:49:58 175

原创 GEML模型

(2)每个OD对的旅客需求数量。本文模型的灵感来自于最近大火的GCNs，然而如果我们直接将已有的GCNs应用到OD矩阵所生成的图上，由于数据稀疏，学习到的具有很少订单的网格嵌入往往是不可靠和无效的，此外，如果没有任何历史订单记录的孤立节点(例如，新建社区)，学习到的网格嵌入也是不可行的(无论作为O点还是D点)。例如，在早高峰时段，当网格划分的粒度很小时，网约车需求的目的地可能存在很大不同，导致数据稀疏性问题，这意味着乘客需求的目的地可能分布得非常广泛，但这些网格的总流入流和流出流是非常大的。

2024-04-23 09:49:40 257

原创 Differentiable Product Quantization for End-to-End Embedding Compression

嵌入层通常用于将离散符号映射为反映其语义的连续嵌入向量。随着符号数量的增加，嵌入参数的数量以及它们的大小呈线性增长，并变得非常大。本文旨在通过学习离散代码并从代码中组合嵌入向量来减少嵌入层的大小。提出了一个具有两个实例的可微产品量化框架，可以作为现有嵌入层的有效替代。在三个不同的语言任务上评估了所提出的方法，表明所提出的方法能实现嵌入压缩的端到端训练，在几乎没有性能成本(有时甚至更好)的情况下实现了显著的压缩比(14-238×)

2024-04-23 09:49:03 102

原创 Range-based Obstructed Nearest Neighbor Queries

为了解决o树平衡问题，提出了一种o树构造算法，并提出了一种称为最优障碍平衡(OOB)的空间划分方案。在此基础上，提出了一种基于O-tree加速的RONN算法(RONN- oa)，利用O-tree加速RONN的查询处理。为了处理RONN，我们首先提出了一个基于CONN (CONNB)的算法作为基线，它将RONN查询简化为一个范围查询和使用r -树处理的四个CONN查询。我们提出了一种新的RONN by R-tree Filtering (RONN- rf)算法，该算法同样使用R-tree来探索有效的过滤。

2024-04-23 09:48:49 168

原创 ZigZag: Supporting Similarity Queries on Vector Space Models

本文研究使用向量空间模型来支持大量记录上的相似性查询问题，其中每个记录是一个标记袋。针对大型数据集，特别是使用硬盘或闪存等外部存储的情况，开发了一系列基于倒排索引的算法，并提出了基于各种边界的剪枝技术，以提高其性能。形式化证明了这些技术的正确性，并展示了如何通过不断收紧这些边界来精确过滤不同记录来实现更好的剪枝能力。使用真实的大规模数据集进行了广泛的实验研究，数据集基于不同的存储平台，包括内存、硬盘和闪存驱动器。实验结果表明，这些算法和技术能够有效地支持大规模数据集上的相似性查询。

2024-04-23 09:48:35 139

原创 Fair Near Neighbor Search: Independent Range Sampling in High Dimensions

本文从公平性角度研究r- nn问题。我们从机会均等的角度来考虑公平性:距离查询距离r以内的所有点都应该有相同的概率被返回。本文最后进行了实验评估，强调了在真实数据集上的推荐设置中的公平性，并讨论了通过解决该问题的其他变体而引入的固有不公平性。，本文为r-NN提出了有效的数据结构，其中S中所有靠近q的点都具有相同的概率被选择并由查询返回。给定半径r ,构造一个数据结构，对于任意给定的查询点q，返回一个距离q不超过r的点p。相似性搜索问题有几种变体，其中最相关的是r-近邻(r- nn)问题。

2024-04-23 09:48:15 113

原创 To Index or Not to Index: Optimizing Exact Maximum Inner Product Search

由于没有单一的解决方案为所有输入提供最佳的运行时性能，本文引入了一个新的数据依赖优化器OPTIMUS，以最小的开销在线选择给定输入的最佳MIPS求解器。在广泛研究的MIPS数据集上，OPTIMUS和MAXIMUS的性能平均比最先进的MIPS求解器高出3.2倍，最高可达10.9倍。解决精确MIPS的蛮力方法在计算上是昂贵的，因此刺激了针对该任务的新索引和剪枝技术的最新发展。本文展示了一种硬件高效的蛮力方法——阻塞矩阵乘法(BMM)，对于某些(但不是所有)输入，其性能可以超过最先进的MIPS求解器一个数量级。

2024-04-23 09:48:00 107

空空如也

空空如也