各类数据结构
文章平均质量分 52
西西弗的小蚂蚁
不要辜负这美好的时光!
展开
-
Scaling Distributed Machine Learning with the Parameter Server
我们提出了一个用于分布式机器学习问题的参数服务器框架。数据和工作负载都分布在工作节点上,而服务器节点维护全局共享的参数,这些参数表示为密集或稀疏的向量和矩阵。该框架管理节点之间的异步数据通信,支持灵活的一致性模型、弹性伸缩性和持续的容错。为了演示所提框架的可伸缩性,我们展示了在pb级真实数据上的实验结果,包括数十亿个示例和参数,涉及问题从稀疏逻辑回归到潜在狄利克雷分配和分布式草图。原创 2024-04-25 09:51:41 · 526 阅读 · 0 评论 -
The Case for Learned Spatial Indexes
我们表明(i)在一个维度上使用过滤时,分区内的机器学习搜索比二进制搜索快11.79%到39.51%,(ii)树结构的瓶颈是索引查找,这可能通过线性化索引分区得到改善(iii)在一维上过滤并使用机器学习的索引进行精炼,比在二维上过滤的最接近的竞争对手快1.23到1.83倍,而且(iv)学习的索引可以对低选择性查询的性能产生显著影响,而在高选择性查询下效率较低。空间数据的指数级增长导致研究界将重点放在构建能够有效处理空间数据的系统和应用程序上。与此同时,最近的研究引入了学习的指标结构。原创 2024-04-25 09:50:15 · 112 阅读 · 0 评论 -
APEX: A High-Performance Learned Index on Persistent Memory
最近学习的索引利用了数据分布,并在某些工作负载中显示出了巨大的潜力。但是,它们都不支持持久性或即时恢复,而且现有的基于pm的索引在进化B+树时通常不考虑已学习的索引。本文提出了一种新的pm优化的学习索引APEX,它提供了高性能、持久性、并发性和即时恢复。APEX基于ALEX,一个最先进的可更新的学习索引,结合和适应过去PM优化和学习索引的最佳,允许它减少PM访问,同时仍然利用机器学习。我们对Intel DCPMM的评估表明,APEX的性能比现有的PM指数高出15个百分点,并且可以在42ms内从故障中恢复。原创 2024-04-25 09:49:10 · 202 阅读 · 0 评论 -
A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks
本文提出了一种基于图的轨迹相似性度量方法(Graph-based approach for measurement Trajectory Similarity, GTS),一种新的用于空间网络相似性计算的轨迹表示学习框架。从轨迹之间的相似性度量开始,这是学习轨迹嵌入的鲁棒框架的第一步。从兴趣点距离、兴趣点轨迹距离和轨迹相似度3个方面定义轨迹相似度,既能反映路网上轨迹之间的关系,又能反映单个轨迹的继承属性。不同于以往在欧氏空间中学习轨迹表示的研究,它不仅需要捕获轨迹的序列信息,还需要捕获空间网络的结构信息。原创 2024-04-24 09:34:19 · 119 阅读 · 0 评论 -
Representative Routes Discovery From Massive Trajectories(KDD2022)
如交通监控和公共交通规划。操作员是时间敏感的,因为它必须能够适应交通条件变化的结果。首先证明了该问题的np -困难性,然后提出了一系列响应时间短的有效近似解。最后,在两个真实数据集上进行了全面的实验,验证了所提算法的有效性和效率,并证明了所提算法在交通监控任务中的有用性和快速响应时间。原创 2024-04-24 09:33:49 · 154 阅读 · 0 评论 -
MDTP: A Multi-source Deep Traffic Prediction Framework over Spatio-Temporal Trajectory Data
在多源连接阶段,提出了两种方法Sum和Concat来连接不同轨迹数据源的特征。在两个真实数据集上的实验表明,与经典的时间序列方法、机器学习方法和最新的基于神经网络的方法相比,MDTP i)具有更高的效率;交通预测因其在交通管理、城市计算、公共安全等领域的广泛应用而受到越来越多的关注。近年来,海量轨迹数据的可用性和深度学习的成功激发了大量深度交通预测研究。然而,现有的基于神经网络的方法往往忽略了位于同一时空交通区域的多种移动对象之间的相关性,这不利于交通预测分析。原创 2024-04-24 09:33:15 · 120 阅读 · 0 评论 -
Deep Recurrent Q-Learning for Partially Observable MDPs(DRQN)
Abstract 深度RL已经为复杂的任务提供了精通的控制器。但是,这些控制器的内存有限,并且依赖于能够在每个决策点感知完整的游戏画面。为了解决这些缺点,本文研究了用循环LSTM替换卷积后的第一个全连接层,从而在DQN中增加循环的影响。最终的DRQN尽管每个时间步骤只能看到一个帧,但可以成功地随时间整合信息,并在标准Atari游戏和具有闪烁游戏画面的部分可观察的等效游戏中达到与DQN相当的性能。此外,在接受部分观测值训练并逐步评估更完整的观测值后,DRQN的性能随可观察性而改变。相反,当接受完整观察并经过原创 2024-04-23 09:50:59 · 973 阅读 · 0 评论 -
prioritized experience replay
经验回放让在线强化学习代理记住和重用过去的经验。在之前的工作中,经验转换是从重播记忆中均匀采样的。然而,这种方法只是简单地以最初体验到的相同频率重播过渡,而不管它们的重要性。,在许多Atari游戏中实现了人类水平的性能。优先体验重放的DQN实现了新的技术水平,在49场比赛中有41场比赛的均匀重放超过了DQN。本文只讨论了后者:在学习中最有效地利用重播记忆,假设它的内容不在我们的控制范围内(参见第6节)。原创 2024-04-23 09:50:34 · 183 阅读 · 0 评论 -
Trust Region Policy Optimization
这些算法是可扩展的,可以优化具有数万个参数的非线性策略,这些参数此前对无模型策略搜索提出了重大挑战(Deisenroth等人,2013)。实验表明,相同的TRPO方法可以从原始图像中学习复杂的游泳、跳跃和走路策略,以及直接玩Atari游戏。尽管它的近似方法偏离了理论,TRPO倾向于给出单调的改进,几乎没有调整超参数。在本文中,我们描述了一种优化控制策略的方法,具有保证的单调性改进。通过对理论证明的方案进行一些近似,然后对理论证明的算法进行一系列的逼近,得到一个实用的算法,原创 2024-04-23 09:50:16 · 137 阅读 · 1 评论 -
Addressing Function Approximation Error in Actor-Critic Methods
该算法建立在双q学习的基础上,通过取一对批评之间的最小值来限制高估。本文得出了目标网络和过估计偏差之间的联系,建议延迟策略更新,以减少每次更新误差,进一步提高性能。在OpenAI gym任务套件上评估了所提出方法,在每个测试环境中都优于最先进的方法。1)在这篇论文中,我们展示了在行动者-批评者的设置下,时间差分方法的高估偏差和误差累积。这种累积的错误会导致任意糟糕的状态被估计为高值,从而导致次优的策略更新和发散的行为。在深度q学习等基于值的强化学习方法中,众所周知,原创 2024-04-23 09:49:58 · 175 阅读 · 0 评论 -
GEML模型
(2)每个OD对的旅客需求数量。本文模型的灵感来自于最近大火的GCNs,然而如果我们直接将已有的GCNs应用到OD矩阵所生成的图上,由于数据稀疏,学习到的具有很少订单的网格嵌入往往是不可靠和无效的,此外,如果没有任何历史订单记录的孤立节点(例如,新建社区),学习到的网格嵌入也是不可行的(无论作为O点还是D点)。例如,在早高峰时段,当网格划分的粒度很小时,网约车需求的目的地可能存在很大不同,导致数据稀疏性问题,这意味着乘客需求的目的地可能分布得非常广泛,但这些网格的总流入流和流出流是非常大的。原创 2024-04-23 09:49:40 · 257 阅读 · 0 评论 -
Differentiable Product Quantization for End-to-End Embedding Compression
嵌入层通常用于将离散符号映射为反映其语义的连续嵌入向量。随着符号数量的增加,嵌入参数的数量以及它们的大小呈线性增长,并变得非常大。本文旨在通过学习离散代码并从代码中组合嵌入向量来减少嵌入层的大小。提出了一个具有两个实例的可微产品量化框架,可以作为现有嵌入层的有效替代。在三个不同的语言任务上评估了所提出的方法,表明所提出的方法能实现嵌入压缩的端到端训练,在几乎没有性能成本(有时甚至更好)的情况下实现了显著的压缩比(14-238×)原创 2024-04-23 09:49:03 · 102 阅读 · 0 评论 -
Range-based Obstructed Nearest Neighbor Queries
为了解决o树平衡问题,提出了一种o树构造算法,并提出了一种称为最优障碍平衡(OOB)的空间划分方案。在此基础上,提出了一种基于O-tree加速的RONN算法(RONN- oa),利用O-tree加速RONN的查询处理。为了处理RONN,我们首先提出了一个基于CONN (CONNB)的算法作为基线,它将RONN查询简化为一个范围查询和使用r -树处理的四个CONN查询。我们提出了一种新的RONN by R-tree Filtering (RONN- rf)算法,该算法同样使用R-tree来探索有效的过滤。原创 2024-04-23 09:48:49 · 167 阅读 · 0 评论 -
ZigZag: Supporting Similarity Queries on Vector Space Models
本文研究使用向量空间模型来支持大量记录上的相似性查询问题,其中每个记录是一个标记袋。针对大型数据集,特别是使用硬盘或闪存等外部存储的情况,开发了一系列基于倒排索引的算法,并提出了基于各种边界的剪枝技术,以提高其性能。形式化证明了这些技术的正确性,并展示了如何通过不断收紧这些边界来精确过滤不同记录来实现更好的剪枝能力。使用真实的大规模数据集进行了广泛的实验研究,数据集基于不同的存储平台,包括内存、硬盘和闪存驱动器。实验结果表明,这些算法和技术能够有效地支持大规模数据集上的相似性查询。原创 2024-04-23 09:48:35 · 139 阅读 · 0 评论 -
Fair Near Neighbor Search: Independent Range Sampling in High Dimensions
本文从公平性角度研究r- nn问题。我们从机会均等的角度来考虑公平性:距离查询距离r以内的所有点都应该有相同的概率被返回。本文最后进行了实验评估,强调了在真实数据集上的推荐设置中的公平性,并讨论了通过解决该问题的其他变体而引入的固有不公平性。,本文为r-NN提出了有效的数据结构,其中S中所有靠近q的点都具有相同的概率被选择并由查询返回。给定半径r ,构造一个数据结构,对于任意给定的查询点q,返回一个距离q不超过r的点p。相似性搜索问题有几种变体,其中最相关的是r-近邻(r- nn)问题。原创 2024-04-23 09:48:15 · 112 阅读 · 0 评论 -
To Index or Not to Index: Optimizing Exact Maximum Inner Product Search
由于没有单一的解决方案为所有输入提供最佳的运行时性能,本文引入了一个新的数据依赖优化器OPTIMUS,以最小的开销在线选择给定输入的最佳MIPS求解器。在广泛研究的MIPS数据集上,OPTIMUS和MAXIMUS的性能平均比最先进的MIPS求解器高出3.2倍,最高可达10.9倍。解决精确MIPS的蛮力方法在计算上是昂贵的,因此刺激了针对该任务的新索引和剪枝技术的最新发展。本文展示了一种硬件高效的蛮力方法——阻塞矩阵乘法(BMM),对于某些(但不是所有)输入,其性能可以超过最先进的MIPS求解器一个数量级。原创 2024-04-23 09:48:00 · 107 阅读 · 0 评论 -
Reducing the Storage Overhead ofMain-Memory OLTP Databases with Hybrid Indexes(SIGMOD16)
本文提出了混合索引(hybrid index),一种双阶段的索引架构,即使在回收的内存没有被用来提高系统性能的情况下,它也显著地减少了每个元组的索引空间,而在吞吐量和延迟方面的代价并不大(事实上,对于某些工作负载,实际上更快)。我们的设计为点查询和短程扫描提供了低延迟和高吞吐量,这是与内存数据库一起使用的OLTP工作负载的典型特征[34,50]。实验结果表明,混合索引提供了与原始索引相当的吞吐量,同时减少了高达70%的内存开销。本文的第一个贡献是混合索引,一种双阶段的索引结构,实现了空间效率和高性能。原创 2024-04-23 09:47:46 · 286 阅读 · 2 评论 -
Order-Preserving Key Compression for In-Memory Search Trees
本文提出高速保序编码器(HOPE),一种基于字典的键压缩器,用于内存搜索树(例如B+树,tries)。当DBMS创建一个基于树的索引/过滤器时,HOPE会对初始批量加载的键进行采样,并统计按方案指定的字节模式的频率。HOPE的一个关键见解是它强调编码速度(而不是解码),因为我们的目标搜索树查询不需要重建原始键。我们的实验表明,对于大多数字符串关键工作负载,使用HOPE可以使搜索树同时实现更低的查询延迟(降低40%)和更好的内存效率(减少30%)。然后选取了六种具有代表性的基于该模型的压缩算法进行实现。原创 2024-04-23 09:47:31 · 93 阅读 · 0 评论 -
近似最近邻(ANN)搜索算法GRIP
与最先进的技术相比,GRIP将整体系统效率提高了一个数量级,显著降低了向量搜索的成本,同时达到了相同或更高的精度。GRIP结合了新的算法和系统技术,以协作优化内存、存储和计算的使用。提出了一种近似最近邻(ANN)搜索算法GRIP,用于构建向量搜索引擎。GRIP旨在根据文档的语义以可扩展的方式大规模检索文档。它既快速又优化了性能。原创 2024-04-23 09:47:14 · 181 阅读 · 0 评论 -
Minimizing the Regret of an Influence Provider
给定一组有影响力的人的请求,影响力提供者应该如何分配资源以减少遗憾,无论是由于放弃了来自影响者的收入,其需求没有得到满足,还是由于过度供应资源以满足影响者的需求?,提出了一种具有两种邻域搜索策略的随机局部搜索框架,并证明了其中一种邻域搜索策略能够保证MROAM对偶问题的近似因子。从影响者的角度对影响最大化进行了广泛的研究。然而,有影响力的人通常会从供应商那里购买影响力,例如以购买广告的形式。在纽约市和新加坡的真实用户运动和billboard数据集上的实验表明,所提方法的有效性平均比基线方法提高了5倍。原创 2024-04-23 09:46:41 · 149 阅读 · 0 评论 -
Towards an Efficient Weighted RandomWalk Domination
为此,本文提出了一种基于矩阵的贪心算法MatrixSel (matrix-based greedy method),该算法可以大大减少计算量。为了进一步加速MatrixSel,本文提出了一种BoundSel方法,通过主动估计候选节点的边际增益上限来减少每个候选节点选择中的增益计算次数。给定一个加权图g (V, E)和加权随机游走的预算B,旨在找到一个k大小的集合S,使通过加权随机游走访问S的剩余节点的总成本最。这个问题在现实世界中有着重要的应用,如社交网络中的广告和无线传感器网络中的电信基站选择。原创 2024-04-23 09:46:25 · 178 阅读 · 0 评论 -
Temporal Network Representation Learning via Historical Neighborhoods Aggregation
一些网络只添加新的边或节点,如作者网络,而另一些网络支持删除节点或边,如互联网数据路由。如果网络结构的变化中存在模式,我们可以更好地理解节点之间的关系和网络的演化,从而进一步学习具有更有意义信息的节点表示。首先提出了一种时间随机游走,可以识别对边形成有影响的历史邻域中的相关节点。然后应用深度学习模型,该模型使用自定义注意力机制来诱导节点嵌入,直接捕获底层特征表示中的时间信息。在一系列真实数据集上进行了广泛的实验,结果证明了所提出的新方法在网络重建任务和链路预测任务中的有效性。原创 2024-04-22 11:25:05 · 89 阅读 · 0 评论 -
A Sketch-based Index for Correlated Dataset Search
本文提出一种新的哈希方案,允许构建基于草图的索引来支持高效的相关表搜索。所提出的方法是有效和高效的,并实现了更好的权衡,与最先进的解决方案相比,显著提高了排名精度和召回率。通过数值数据关系支持关系数据扩充:给定一个输入查询表,找到既可以与它连接,又包含与查询中的列相关的列的top-k表。数据集搜索正在成为研究和工业中的一项关键能力:它刺激了许多新的应用,从丰富的现实世界现象分析到改进机器学习模型。最近在该领域的研究探索了一类新的数据驱动查询:查询由数据集组成,并从大量相关数据集中检索。原创 2024-04-22 11:24:53 · 193 阅读 · 0 评论 -
Separation or Not: On Handing Out-of-Order Time-Series Data in Leveled LSM-Tree
请注意,作为一篇工业论文,我们关注的是是否分离以降低写放大,而不是为研究问题提出新的技术。按照常规策略(用πc表示),写数据时,数据首先被缓冲到内存中的MemTable中。Apache IoTDB使用有序和无序的memtable分别缓冲有序和无序数据,以加快查询速度,即分离策略(用πs表示)。分离的影响是积极的还是消极的,以及WA受到的影响有多强烈,取决于工作负载的属性以及有序和无序memtable的容量。在给定一定的内存预算来缓冲数据的情况下,水平LSM-Tree的写放大(WA)会受到π的影响。原创 2024-04-22 11:24:39 · 149 阅读 · 0 评论 -
SA-LSM: Optimize Data Layout for LSM-tree Based Storage using Survival Analysis
通过对LSM-tree的合理应用,SA-LSM可以利用历史语义信息和访问轨迹对冷数据进行准确预测。为使部署更加灵活,还设计了一种非侵入式架构,将cpu密集型工作,如模型训练和推理,卸载到外部服务。在真实工作负载上的大量实验表明,与目前最先进的技术相比,该方法可以降低最高78.9%的尾延迟。然而,这一过程没有充分利用数据记录的访问信息,导致数据布局不够理想,影响系统性能。准确识别并高效管理低成本存储上的冷数据是云提供商面临的主要挑战之一,如何在降低成本和提高系统性能之间取得平衡。原创 2024-04-22 11:24:26 · 199 阅读 · 0 评论 -
LSM-Trees and B-Trees: The Best of Both Worlds
lsm树和b树是现代键值(key-value, KV)存储系统中用作存储引擎的两种主要数据结构。这两种结构对于不同的工作负载是最优的;lsm树在更新查询时性能更好,而b树在短距离查询时性能更好。现在的KV商店只使用其中一种。然而,对于工作负载日益多样化的现代应用程序,仅使用两种设计中的一种会导致性能的显著损失。本文提出了一种新颖的方法,在线地将KV存储从lsm树转换到b树,反之亦然。这使得KV存储可以平滑地适应不断变化的工作负载。原创 2024-04-22 11:24:11 · 81 阅读 · 0 评论 -
Efficient Query Processing with Optimistically Compressed Hash Tables & Strings in the USSR
本文提出了三种互补的技术来改进这种表示:域引导的前缀抑制将键和值紧密打包,以减少哈希表记录宽度。乐观拆分将值(以及对它们的操作)分解为频繁访问的值切片和非频繁访问的值切片。唯一字符串自定位区域(苏联)通过创建一个最频繁字符串的动态字典来加速处理频繁出现的字符串,这些字符串在现实世界的数据集中很常见。在TPC-H测试集上,该方法将峰值内存消耗降低了2 ~ 4倍,性能提升了1.5倍。在一个真实的BI工作负载上,我们测量到了2倍的性能提升,在微基准测试中,我们观察到高达25倍的速度提升。原创 2024-04-22 11:23:58 · 122 阅读 · 0 评论 -
Hash Adaptive Bloom Filter
然而,由于布隆过滤器使用均匀随机的散列函数来映射每个元素,即使在负键(元素不在集合中)信息可用的情况下,布隆过滤器的灵活性也很差。HABF的核心思想是为正键(元素在集合中)自定义散列函数,以避免负键带来的高开销,并将自定义的散列函数打包成一个轻量级的数据结构HashExpressor。在具有代表性的数据集上进行了广泛的实验,结果表明,HABF在准确性、构建时间、查询时间和内存空间消耗等方面的整体性能优于标准布鲁姆过滤器及其前沿变体(请注意,源代码在[1]中)。原创 2024-04-22 11:23:46 · 178 阅读 · 0 评论 -
Chucky: A Succinct Cuckoo Filter for LSM-Tree
本文提出Chucky,一种新的设计,用一个布谷鸟过滤器取代多个布隆过滤器,将每个数据条目映射到lsm树中其位置的辅助地址。为了解决这个问题,我们利用信息论的技术对辅助地址进行简洁的编码,以便指纹可以保持很大。现代的键值存储通常依赖于SSD (LSM-tree in storage)来处理写操作,依赖于DRAM (Bloom filter in memory)来优化读操作。随着SSD技术的不断进步,存储设备和内存设备之间的性能差距越来越小,布隆过滤器已经成为性能瓶颈。原创 2024-04-22 11:23:33 · 207 阅读 · 0 评论 -
An Experimental Study of Bitmap Compression vs. Inverted List Compression
位图压缩在数据库领域得到了广泛的研究,已经提出了许多有效的压缩方案,如BBC、WAH、EWAH和roar。倒排表压缩在信息检索领域也得到了广泛的研究,许多倒排表压缩算法也被开发出来,例如VB、PforDelta、GroupVB、Simple8b和SIMDPforDelta。为了回答这个问题,我们提出了第一个全面的实验研究,以比较一系列的9种位图压缩方法和12种倒排列表压缩方法。基于这些结果,提供了许多经验教训和指导方针,可用于从业人员决定在未来的系统中采用哪种技术,也可用于研究人员开发新的算法。原创 2024-04-22 11:23:19 · 178 阅读 · 0 评论 -
Dynamic Density Based Clustering
研究了DBSCAN的算法原理,提出了一种成功的基于密度的动态聚类算法,以及ρ-近似DBSCAN算法,以降低前者在静态数据上的计算难度。令人惊讶的是,我们证明了ρ-approximate版本在数据集完全动态时,即允许插入和删除时,具有同样的困难。只要应用微小的进一步放松,这个问题就会消失,但仍然保证了相同的质量——称为ρ-近似DBSCAN的“三明治保证”。考虑到这种聚类方法在许多需要数据更新的应用程序中广泛使用,这种现象是不幸的。对于基于密度的聚类尤其如此,对象是基于邻近性聚集的,在这种情况下,原创 2024-04-22 11:23:03 · 137 阅读 · 0 评论 -
Tree-Encoded Bitmaps
基于树的表示产生了高压缩比,并实现了有效的随机访问,这反过来允许位图的快速交叉。对随机生成的位图的实验分析表明,当位图密集和/或仅勉强聚类时,所提出方法比最先进的压缩技术有显著改进。用真实世界的数据集评估了所提出的方法,表明所提出的树编码位图可以比现有技术节省多达三分之一的空间。与现有的位图压缩方案类似,利用了由连续相同位填充的位图的压缩潜力,即0-游程和1-游程。对于中等或高基数列,位图索引由许多单独的位图组成,这些位图稀疏地填充了1位。普通的位图会消耗大量的空间,因此压缩是必要的。但与之前的工作相比,原创 2024-04-22 11:22:48 · 139 阅读 · 0 评论 -
Scalable Kernel Density Classification via Threshold-Based Pruning
核密度估计(KDE)是一种计算这些密度的强大技术,它提供了出色的统计精度,但总运行时间是二次的。在本文中,我们介绍了一种简单的技术来提高使用KDE按密度分类点的性能(密度分类)。所提出的技术,阈值核密度分类(tKDC),将基于阈值的修剪应用于空间索引遍历,以实现对naïve KDE的渐进加速,同时保持精度保证。tKDC不是精确地计算每个点的精确密度用于分类,而是迭代地计算密度下界和短路密度计算,只要下界高于或低于目标分类阈值。在广泛的数据集大小和维度上,tKDC比其他方法显示了高达1000倍的经验加速。原创 2024-04-22 11:22:31 · 141 阅读 · 0 评论 -
Point-to-Hyperplane Nearest Neighbor Search Beyond the Unit Hypersphere
此外,我们还提出了一种数据依赖的多划分策略来提高跳频的搜索性能。在五个真实的数据集上评估了NH和FH,结果表明,在五个数据集中的四个数据集上,我们比最好的竞争对手快了约3 ~ 100倍,尤其是在[20%,80%]的召回率方面。本文引入了一种新的非对称变换,并针对单位超球之外的高维p2hnn提出了前两种可证明的超平面哈希方案:最近超平面哈希(Nearest hyperplane hashing, NH)和最远超平面哈希(最远超平面哈希(hyperplane hashing, FH)原创 2024-04-22 11:22:11 · 151 阅读 · 0 评论 -
DISTILL: Low-Overhead Data-Driven Techniques for Filtering and Costing Indexes for Scalable Index Tu
对真实世界和合成基准进行了广泛的评估,结果表明,给定相同的输入查询、索引和搜索算法进行探索,所提出的技术与最先进的调优工具相比,在推荐索引质量相似的情况下,调优时间的中位数减少了3倍,最多减少了12倍。本文开发了低开销的技术,可以被索引调优工具利用,在不更改调优算法或查询优化器的情况下,减少大量的优化器调用。然而,其中很大一部分索引是虚假的,并不能显著提高查询的性能。其次,学习成本模型,利用工作负载中查询和索引配置对之间的相似性,使用较少的优化器调用,有效地估计在大量索引配置上的查询成本。原创 2024-04-22 11:21:44 · 89 阅读 · 0 评论 -
Stacked Filters: Learning to Filter by Structure
我们提出了堆栈过滤器,一种新的概率过滤器,它的速度和健壮性类似于查询不可知的过滤器(如Bloom和Cuckoo过滤器),同时带来较低的假阳性率和大小,类似于基于类er的过滤器(如学习过滤器)。他们不是学习,而是使用哈希和几个排序的lter层在结构上整合这些知识,为数据和经常出现的负面信息建立索引。我们通过实验证明,对于给定的内存预算,堆栈过滤器实现的端到端查询吞吐量比工作负载的最佳替代方案(查询不可知的或基于类er的lters)高130倍,并且取决于数据的位置(SSD或HDD)。结构化地封装工作负载信息。原创 2024-04-22 11:20:47 · 144 阅读 · 0 评论 -
Landmarks: A New Model for Similarity-Based Pattern Querying in Time Series Databases
通过跟踪路标的不同特定特征子集,可以高效地计算不同的路标相似性度量,这些度量在六种变换的相应子集下保持不变;即移位、均匀幅度缩放、均匀时间缩放、均匀双缩放、时间规整和非均匀幅度缩放。本文还讨论了一种不平滑波峰和波底就能从原始时间序列中去除噪声的通用方法。除了这些新功能,我们的实验表明,Landmark索引的速度相当快。相反,它会导致地标相似性,这是一种与人类直觉和情景记忆一致的相似性通用模型。本文提出了一种新的时间序列查询模型——Landmark模型,该模型能够产生新的基于相似性的时间序列模式查询技术。原创 2024-04-21 13:22:04 · 99 阅读 · 0 评论 -
Dostoevsky: Better Space-Time Trade-Offs for LSM-Tree Based Key-Value Stores via Adaptive Removal of
原因是它们在所有级别的flsm -tree中执行同样昂贵的合并操作,以限制查找必须探测的运行次数,并删除过时的项以回收存储空间。然而,在最先进的设计下,除了最大的(即大多数合并操作)之外,来自所有级别的LSM-tree的合并操作可以减少微不足道的点查找开销、长范围查找开销和存储空间,同时显著增加更新的摊销开销。本文引入了惰性均衡,一种新的设计,从LSM-tree的所有层中删除合并操作,但在最大的层中。lsm树的键值存储,一方面是更新的I/O成本,另一方面是查找和存储空间的I/O成本。原创 2024-04-21 13:21:07 · 186 阅读 · 0 评论 -
Scaling and Time Warping in Time Series Querying
可能对一些问题同样重要。在这项工作中,我们注意到,对于许多现实世界的问题,有必要将DTW和US结合起来,以获得有意义的结果。我们介绍了第一种可以同时处理DTW和US的技术,并证明了它在工业、医学和娱乐领域的广泛问题上的效用和有效性。在过去的几年里,人们越来越认识到动态时间扭曲(DTW)是一种在校准时间序列时允许局部灵活性的技术,在时间序列分类、聚类和索引方面优于无处不在的欧氏距离。近,研究表明,对于一些问题,统一缩放(US),一种允许时间序列全局缩放的技术,原创 2024-04-21 13:20:09 · 192 阅读 · 0 评论 -
Causal Feature Selection for Algorithmic Fairness
从理论上证明了所提算法的正确性,并表明亚线性条件独立性测试足以识别这些变量。在真实数据集上进行了详细的实证评估,以证明该技术的有效性和效率。在高风险的社会决策中使用机器学习(ML),鼓励在机器学习的整个生命周期中考虑公平性。尽管数据集成是生成高质量训练数据的主要步骤之一,但大多数公平性文献都忽略了这一阶段。本文考虑数据管理集成组件中的公平性,旨在识别在不给数据集增加任何偏差的情况下改善预测的特征。本文提出一种方法来识别特征子集,通过在不同特征子集之间进行条件独立测试,确保数据集的公平性。原创 2024-04-21 13:19:23 · 151 阅读 · 0 评论