时间序列/高维数据相似性查询
文章平均质量分 74
时间序列/高维数据相似性查询
西西弗的小蚂蚁
不要辜负这美好的时光!
展开
-
Frequency-domain MLPs are More Effective Learners in Time Series Forecasting
FreTS的频率学习架构如图所示,主要包括域转换/反演阶段、频域mlp以及相应的两个学习器,即频通道学习器(frequency Channel Learner)和频时学习器(frequency Temporal Learner)。在13个现实世界基准(包括7个短期预测基准和6个长期预测基准)上进行的广泛实验表明,我们的方法优于最先进的方法。使用傅里叶变换可以将时间序列信号分解成其组成频率,正如前面在图1(a)中提到的,在频谱中学习有助于捕获更多的周期模式。频率时间学习器的目的是学习频域中的时间模式。原创 2023-11-10 17:20:18 · 293 阅读 · 0 评论 -
LightTS: Lightweight Time Series Classification with Adaptive Ensemble Distillation
最先进的分类精度通常是通过集成学习来实现的,集成学习的结果是由多个基本模型合成的。本文报告了用128个真实世界的时间序列集和不同类型的基础模型进行的实验,这些模型证明了LightTS设计中的关键决策是正确的,并提供了证据表明LightTS能够胜过竞争对手。在经典的多目标贝叶斯优化(MOBO)中,如图11中的白色框所示,已评估的设置𝐸𝑆用于构建高斯过程(GP),以估计未评估设置的准确性。本文提出一种自适应集成蒸馏(AED)过程,为教师分配可学习的、自适应的权重,使不同的教师可以对学生做出不同的贡献。原创 2023-03-07 17:36:19 · 360 阅读 · 0 评论 -
Dish-TS: A General Paradigm for Alleviating Distribution Shift in Time Series Forecasting(AAAI2023)
具体来说,双conet由两个独立的conet组成:(1)BACKCONET,产生系数来估计输入空间的分布(回看),以及(2)HORICONET,产生系数来推断输出空间的分布(地平线)。为缓解空间内和空间间的移位,将Dish-TS组织为一个双conet框架,以分别学习输入空间和输出空间的分布,自然地捕获了两个空间的分布差异。本文提出一种系数网(CONET),用于学习更好的分布测量,以捕获漂移。i)空间内移动,即输入空间内的分布随着时间的推移而移动,以及(ii)空间间移动,即分布在输入空间和输出空间之间移动。原创 2023-03-02 15:27:41 · 201 阅读 · 0 评论 -
PARROT: pattern-based correlation exploitation in big partitioned data series
该过程涉及三个主要步骤:(1)全局索引查找(集中式处理),用于识别包含若干(2)对与识别出的p -模式相关联的候选集进行va -签名的局部索引查找(分布式处理);在真实和合成数据集上的大量实验表明,与其他最新的解决方案相比,PARROThas大大降低了索引构建成本、更小的存储开销,以及处理相似性查询的性能和准确性。给定半径参数r,图案p是s空间中的一个球间距区域,其中p.c和p.r表示pattern的枢轴中心和半径, s空间是由原始数据序列对象n空间生成的降维特征空间,其中s原创 2023-02-28 19:44:44 · 28 阅读 · 0 评论 -
Route Travel Time Estimation on A Road Network Revisited: Heterogeneity, Proximity, Periodicity and
解码器首先利用异构图注意力模型解码基于静态时空特征的出行速度静态部分,然后利用序列注意力模型从空间角度解码估计的出行时间。在序列编码部分,将所有时空特征都视为一个长度为历史时隙数的时间序列,因此将编码部分表示为时间编码器。对于序列解码部分,我们的目标是生成给定路线上每个路段的旅行速度/时间。在时间上,时段背景信息(如高峰时段)的周/日周期性和动态交通状况对出行时间有显著影响,分别形成了静态和动态的时空特征。为了捕捉这种影响,将旅行时间/速度视为静态和动态的组合,并提取了许多时空相关的特征用于预测任务。原创 2023-02-26 15:46:10 · 73 阅读 · 0 评论 -
A Deep Generative Model for Trajectory Modeling and Utilization
(2)道路知识编码模块(图4 (c))用于编码道路边缘属性,引入固有的路径规划特征,增强轨迹前缀编码(3)轨迹前缀编码模块(图4 (a)的一部分)用于编码轨迹前缀,旨在从高维轨迹前缀中提取长期时空依赖。(4)元生成器模块(图4 (d))用于轨迹路径边及其行程时间生成,旨在有效支持倾斜轨迹数据上的轨迹建模与生成。受交通路网上规则轨迹分布的启发,本文提出用深度生成模型对轨迹数据进行秘密建模,并利用该模型为下游任务生成有代表性的轨迹或直接支持这些任务(如流行度排名),而不是获取和处理原始的大轨迹数据。原创 2023-02-26 13:48:57 · 71 阅读 · 0 评论 -
AnalyticDB-V: A Hybrid Analytical Engine Towards Query Fusion for Structured and Unstructured Data
此外,还提出了一种新的人工神经网络算法,以提高对表示大量非结构化数据的大规模向量的准确性。在ADBV中,所有的人工神经网络算法都被实现为物理算子,同时,提出了精度感知的基于代价的优化技术来识别有效的执行计划。在索引构建阶段,IVFPQ[23]算法使用k-means聚类算法对PQ编码进行分组,在查询阶段,只扫描与查询最相关的分组。然而,在大多数系统中,对非结构化数据和结构化数据的查询往往被视为不相关的任务,混合查询(即同时涉及两种数据类型)尚未得到完全支持。因此,HNSW适合支持新插入数据的查询。原创 2023-02-24 23:44:03 · 20 阅读 · 0 评论 -
Odyssey: A Journey in the Land of Distributed Data Series Similarity Search(VLDB2023)
在第二阶段,每个节点(i)将它的数据块加载到内存中,(ii)计算它们的iSAX摘要并将它们存储到多个摘要缓冲区中,以实现局部性,以及(iii)建立它的索引树。它形成节点组(复制组,见3.3节),每个组的所有节点存储相同的数据块。这样做的意义并不明显)当然文中对数据的分组划分,在分布式系统中是常见的方法,文中缺少对协调者的选择和组之间通信,以及组怎样划分的细节文中没有提到,这是有些遗憾的部分,同时组中的成员不一定是固定不变的,可能随着时间成员会发生变化,这在分布式系统中是很常见的现象,但是文中并没有考虑。原创 2023-02-20 19:02:56 · 417 阅读 · 0 评论 -
Fast Similarity Search in the Presence of Noise, Scaling, andTranslation in Time-Series Databases
该匹配系统由三个主要部分组成:(i)“原子”子序列匹配,(ii)长序列匹配和(iii)序列匹配。其基本思想是使用较小的原子子序列创建一个快速的、可索引的数据结构,该子序列表示所有序列的幅度缩放和偏移。第三阶段对第二阶段匹配到的子序列进行线性排序,以确定两个序列中是否存在足够的相似片段。如果两个子序列中的一个可以被包含在另一个周围的指定宽度的包络内,则认为它们是相似的。相似性序列模型,捕捉到的直观序列应该被认为足够相似的非重叠序列。该模型还允许在匹配的子序列中存在非匹配的空白。原创 2022-10-27 16:08:22 · 6 阅读 · 0 评论 -
Cache locality is not enough: High-Performance Nearest Neighbor Search with Product Quantization Fas
Cache locality is not enough: High-Performance Nearest Neighbor Search with Product Quantization Fast Scan高维数据的最近邻搜索是许多应用(如图像检索、多媒体数据库)中的一个重要特征。产品量化(Product Quantization, PQ)是一种广泛使用的高性能解决方案,它可以在保持高精度的同时降低响应时间。PQ通过紧凑编码表示高维向量(例如,图像描述子)。因此,可以将非常大的数据库存储在内存中,从而原创 2022-10-18 12:04:11 · 2 阅读 · 0 评论 -
Hybrid LSH: Faster Near Neighbors Reporting in High-dimensional Space
这意味着我们可以在基于lsh的搜索和线性搜索之间选择合适的搜索策略,以获得更好的性能。此外,集成的数据结构是时间高效的,可以与许多最新的基于lsh的方法相适应。在真实数据集上的实验结果表明,在大范围的搜索半径和高维数据分布下,混合搜索方法的性能优于(或与)基于lsh的搜索和线性搜索方法相当。通过在哈希表的每个桶中构造一个HLL数据结构,可以估计基于lsh的搜索的计算成本,进而确定使用lsh搜索还是线性搜索的条件。本文提出了一种基于lsh搜索和线性搜索相结合的混合搜索策略,用于求解高维空间中的rNNR。原创 2022-09-30 16:01:43 · 5 阅读 · 0 评论 -
LSHiForest: A Generic Framework for Fast Tree Isolation based Ensemble Anomaly Analysis
特别是,具有核化LSH族或基于学习的哈希方案的框架实例可以检测复杂的异常,如本地或包围的异常。形式化地表明,现有的基于树隔离的检测方法是该框架的特殊情况,具有相应的距离度量。该框架具有通用性,可以实例化多种LSH族,快速隔离机制可以扩展到任何定义了LSH族的距离度量、数据类型和数据空间。异常或离群点检测是大数据分析中的一个主要挑战,因为异常模式在广泛的应用中为决策提供了有价值的见解。最近提出的基于树隔离机制的异常检测方法具有对数时间复杂度,速度非常快,能够高效地处理大数据集。原创 2022-09-30 14:19:03 · 8 阅读 · 0 评论 -
Multi-Probe LSH: Efficient Indexing for High-Dimensional Similarity Search
理想情况下,我们希望检查成功率最高的桶。与基于信息熵的LSH方法相比,multi-probe LSH方法在达到相同搜索质量的前提下,查询时间更短,所需的哈希表数量减少了5 ~ 8倍。考虑每个哈希函数的q在其插槽中的位置的想法源自Panigrahy对他的基于熵的LSH方案的分析。基于局部敏感哈希的特性,与两步远的桶相比,一步远的桶(即与查询对象的M个哈希值只有一个不同的哈希值)更有可能包含接近查询对象的对象。通过使用多个扰动向量,我们定位了更多的哈希桶,这些桶可能靠近查询对象的桶,并且可能包含q的最近邻居。原创 2022-09-30 12:19:38 · 8 阅读 · 0 评论 -
GraSP: Optimizing Graph-based Nearest Neighbor Search with Subgraph Sampling and Pruning
然后,GraSP执行一种新的子图采样和迭代细化方法,基于单个边的联合概率来学习重要的边,以最大化图上的精度和最小化期望的搜索复杂度。首先,引入了一种新的概率模型,称为可退火相似图(ASG)(第4.1节),将图的每条边都关联到一个可学习的边概率,该概率表明是保留还是删除该边。基于图的神经网络的边访问的频率分布可能是高度倾斜的。在此过程中,现有方法通过添加多样化的边(例如,添加短程链接以创建密集连接的局部簇和连接这些簇的长程链接)和删除不必要的边(例如,使节点不超过预定义的出度上限)来改进图的可导航性。原创 2022-09-19 21:22:47 · 7 阅读 · 0 评论 -
Continuously Adaptive Similarity Search
为实现这一目标,证明了局部敏感哈希(LSH)提供了不变性,这意味着建立在原始距离度量上的LSH索引在支持使用更新的距离度量进行相似性搜索方面同样有效,只要为新距离度量学习的变换矩阵满足某些属性。在真实世界公开数据集上的实验研究证实了OASIS在提高各种基于相似性搜索的数据分析任务的准确性方面的有效性,通过即时调整距离度量及其相关索引,同时实现了比最先进技术最高3个数量级的加速。我们将展示建立在欧氏距离上的LSH索引,只要其变换矩阵𝑀的特征值落入一定的范围,就足以支持学习到的距离度量下的相似性搜索。原创 2022-09-17 12:35:49 · 3 阅读 · 0 评论 -
Improving Approximate Nearest Neighbor Search through Learned Adaptive Early Termination
最先进的ANN方法使用固定配置,对所有查询应用相同的终止条件(搜索子集的大小),这在试图实现最后几个百分点的准确性时导致了不希望出现的高延迟。研究发现,由于索引结构和向量分布的原因,寻找真实最近邻所需要搜索的数据库向量的数量在不同的查询中差异很大进一步发现,搜索一定数量后的中间搜索结果是一个重要的运行时特征,表明应该执行多少搜索。然而,我们认为这种运行时特性对于第4节中解释的预测模型是必要的,并且所提出的方法仍然需要利用搜索终止条件之间的大多数变化。首先介绍预测器接受的参数以及它是如何训练的。原创 2022-09-17 11:52:06 · 6 阅读 · 0 评论 -
QUILTS: Multidimensional Partitioning Framework Based on Query-Aware and Skew-Tolerant Space-Fill
数据跳转将数据划分为页,只访问包含查询要检索的数据的页。因此,需要有效的数据分区,以最小化页访问的次数。然而,在给定查询模式和数据分布的情况下,获得最优的数据划分是一个NP-hard问题。使用倾斜数据集进行了实验,并证实了该框架可以将具有真实数据的数据仓库(DWH)和地理信息系统(GIS)应用的页面访问次数减少一个数量级。因此,这个问题可以解释为选择一条曲线来分配查询要访问的数据,以最小化页访问的次数。当曲线具有给定查询模式的上述属性并能够处理倾斜的数据分布时,我们称曲线是查询感知的和容忍倾斜的。原创 2022-09-16 20:37:20 · 4 阅读 · 0 评论 -
Faster and Better Solution to Embed Metrics by Tree Metrics
如图1所示,HST的一个内部节点(例如𝑢2)对应于点集𝑉的一个子集(例如𝑝2-𝑝6),而根在这个内部节点上的子树可以被视为子空间(例如({𝑝2,···,𝑝6},𝐷𝑖𝑠))的一个HST。然而,我们观察到:(1)在许多应用HSTs的应用中,只使用了𝐿𝑝指标(如欧几里得空间),(2)最先进的解决方案在为大规模数据构建HSTs时仍然耗时,(3)现有算法的失真仅对高维数据令人满意。我们的目标是设计一个比𝑂(𝑛2)更快的算法,以构建不仅具有𝑂(log𝑛)失真保证,而且具有良好和鲁棒的经验结果的HSTs。原创 2022-09-16 10:54:07 · 4 阅读 · 0 评论 -
GPH: Similarity Search in Hamming Space
阅读者总结:这篇论文在汉明距离查询上提出了一种新的广义鸽槽算法,这个很就有代表性,它克服了传统鸽槽算法在维度划分上没有考虑数据分布的特点。同时提出了一种查询成本模型,基于这个模型文中提出了一种新的距离阈值方法(动态分配),以及数据维度划分的方法。在不同数据分布的数据集上的实验结果表明,该方法具有较好的鲁棒性和查询处理性能。我们还观察到,真实数据的分布往往是倾斜的,但现有的大多数解决方案采用简单的等宽分区,为所有分区分配相同的阈值,因此未能利用数据的倾斜性来优化查询处理。本文介绍了我们的维度划分方法。原创 2022-09-15 22:06:24 · 3 阅读 · 0 评论 -
HAP: An Efficient Hamming Space Index Based on Augmented Pigeonhole Principle
采用提供了一个潜在的更严格的过滤条件。为了最大化APP的剪枝能力,将现有的代价模型[33]扩展到维度重叠的通用环境,并利用维度相关性和历史查询负载设计了一个实用的维度划分策略。HAP框架,包括范围查询处理和成本模型(第5.1节),初始维度划分算法(第5.2节),成本估计器SimCardNet(第5.3节),以及基于预测的𝑘NN查询处理算法(第5.4节)。在我们的工作中,我们通过允许维度冗余来放松不相交的分区约束,从而产生一个更紧密的修剪边界,称为增强鸽子洞原理(Augmented鸽子洞原理,APP)。原创 2022-09-15 13:49:53 · 7 阅读 · 0 评论 -
Learning Multi-granular Quantized Embeddings for Large-Vocab Categorical Features in Recommender Sys
生成的嵌入表的大小随着词汇表的大小线性增长。因此,庞大的词汇表不可避免地导致巨大的嵌入表,从而产生两个严重的问题:(i)在资源受限的环境下使模型服务难以处理;(ii)导致过拟合问题。本文试图提供一个新的角度,以紧凑的模型大小来提高推荐性能。在三个推荐任务和两个数据集上的广泛实验表明,可以取得与原始模型相当或更好的性能,而模型大小仅为原始模型的20%。首先,证明了新的可微积量化(DPQ)方法可以推广到recsys问题。与完整模型相比,MGQE显著减小了模型大小,并具有与完整模型相当或更好的性能。原创 2022-09-13 22:14:43 · 39 阅读 · 0 评论 -
DESIRE: An Efficient Dynamic Cluster-based Forest Indexing for Similarity Search in Multi-Metric
背景:多维度量空间结合多个度量空间来同时建模由不同类型数据表示的对象的不同特征,并支持一系列相关的相似性度量。在四个真实数据集上的大量实验表明,与最先进的多度量空间索引相比,我们提出的DESIRE具有更高的效率和可扩展性。但是,这是不正确的,因为结果对象可能不是在单个度量空间中与查询对象最近邻的𝑘。我们提出了多度量空间中高效的相似度搜索算法,利用DESIRE分别支持多度量范围查询和多度量𝑘NN查询。由于度量空间可以容纳任何类型的数据并支持灵活的距离度量,因此在度量空间中的相似度搜索越来越受到关注。原创 2022-09-12 10:36:16 · 134 阅读 · 0 评论 -
PM-LSH: A Fast and Accurate LSH Framework for High-Dimensional Approximate NN Search(VLDB)
如前所述,RE方法通过扩大搜索半径来快速探测存储在哈希桶中的点,但由于索引结构粗粒度,存在距离估计不准确的问题,这将导致在检查不必要的点时产生计算开销。在基于哈希桶的索引方法中,如Multi-Probe、LSBtree和C2LSH,我们直接探测桶中的点,时间开销为O(T)。然后,分析了pm树和r树的代价模型,以了解在相应的范围查询负载下,pm树的性能如何优于r树。最后,给出了算法的具体实现。我们的PM-LSH可以看作是第二种和第三种方法的组合,因为我们在投影空间中构建pm -树,并执行范围查询来检索点。..原创 2022-08-23 00:10:52 · 321 阅读 · 0 评论 -
NLC: Search Correlated Window Pairs on Long Time Series(VLDB2022)
2)文中另一方面 是在分析这个问题上,采用数据驱动的方式,应该说很有说服力,使阅读相信这个问题值得采用新办法解决,可以是写作和文章布局上的一种值得学习的方式。当相关对密集分布时,如果我们仍然使用大窗口,可能会出现在一个包络窗口中出现两个不同的相关对,由于我们在一个包络窗口中只保留了一个相关对,这将导致某些相关对被忽略。因此,对于时延较大的窗口对,算法的性能较差。然而,现有的工作要么局限于检测关系的类型,如仅检测线性相关关系,要么未处理复杂的时间关系,如未考虑非对齐窗口或可变窗口长度。......原创 2022-08-13 14:13:16 · 145 阅读 · 1 评论 -
Fast Adaptive Similarity Search through Variance-Aware Quantization (ICDE 2022)
只部分平衡子空间的重要性(即在子空间中传播重要性),并解决一个约束优化问题,通过最大化子空间的整体重要性自适应地为子空间分配比特,而不忽略每个子空间的重要性(第三- c节)。把更多的比特分配给信息更丰富的子空间(P2),我们更准确地捕获了这些子空间中解释的方差。其次,给定一个比特预算,VAQ在一些约束条件下,通过优化一个目标函数来最大化所有子空间和每个子空间的方差,从而确定每个子空间字典的项数。然而,相邻子空间的某些方差很少会乱序(即,具有许多次要维度的子空间的方差排名高于具有较少重要维度的子空间)。...原创 2022-08-11 19:20:06 · 553 阅读 · 0 评论 -
Constructing Compact Time Series Index for Efficient Window Query Processing(ICDE2022)
为了支持W中的查询,我们将W中的所有窗口分组为不同的簇。虽然WinIdx仍然利用窗口聚类机制,但从不同的角度考虑窗口之间的相似性。也就是说,如果两个窗口中的子序列之间的关系相似,则认为两个窗口相似。基于关系的相似性度量使得WinIdx在窗口不是相邻子序列或波动剧烈的时间序列时仍然具有良好的性能。每个WTree由一个完整的匹配索引和一些简洁的索引组成。在真实和合成时间序列上进行了广泛的实验,证明了WinIdx相对于最先进方法的优越性。近年来,时间序列的分析与挖掘在学术界和工业界得到了广泛的研究。......原创 2022-08-10 23:49:25 · 115 阅读 · 0 评论 -
ParIS+: Data Series Indexing on Multi-Core Architectures
数据序列相似性搜索是跨领域数据序列分析应用的核心操作。然而,即使是最先进的技术也无法提供大型数据序列集合所需的时间性能。本文提出ParIS和ParIS+,第一个基于磁盘的数据系列索引,精心设计,实验结果表明,ParIS+完全消除了磁盘数据索引构建时的CPU延迟,并且在精确查询方面比当前最先进的索引扫描方法快1个数量级,比优化的串行扫描方法快3个数量级。没有新颖度:1)没有提出有效的时间序列摘要技术 2)没哟提出有效的索引结构或者索引树 3)如果在不考虑硬件或者并行条件下,算法设计处理问题的通用性。...原创 2022-08-04 10:33:26 · 59 阅读 · 0 评论 -
Efficient Range and kNN Twin SubsequenceSearch in Time Series(TKDE2022)
阅读者总结:这篇论文的在索引设计上的新颖度一般,主要是利用时间序列集合最小外界框,然后基于这个外界框实现搜索树的构建,优化过程主要集中在分组构建外界框。整体上这类从时间序列集合中找到与查询时间序列最相似的等长子序列,在算法设计上的效果不好,尤其是利用外界框,这会导致上下框边界松弛,产生大量的候选对象,也就是剪枝效果不理想,导致查询性能一般。首先,我们提供其结构的概述,并解释它是如何构建的。时间序列(MBTS)mbt是一对序列,通过表示每个时间戳上的最大值和最小值,将一组时间序列T完全封装起来。...原创 2022-08-03 20:51:44 · 149 阅读 · 0 评论 -
Hercules Against Data Series Similarity Search(VLDB2022)
它会明智地这样做,在查询回答过程中根据工作负载中的每个查询调整访问路径选择决策(例如,Hercules会根据数据系列摘要、EAPCA和iSAX的剪枝率决定何时将查询并行化),并仔细调度索引插入和磁盘刷新,同时保证数据完整性。用于最先进的数据系列索引[490,50,53]的并行化思想与具有非常大的根扇出的基于树的索引(如基于isax的索引[45])相关。总体来说文章使用并行,缓存方式加速查询,但是没有看出来较强的新颖点,比如在时间序列摘要技术上,索引构建上,索引树的创建上都没有看出较强的创新方法。...原创 2022-08-03 19:43:59 · 270 阅读 · 0 评论 -
The Inherent Time Complexity and An Efficient Algorithm for Subsequence Matching Problem(SIGMOD2022)
在𝐸𝐷和𝐷𝑇𝑊的测量上𝐸𝑃𝐴𝐴的松紧度和𝑃𝐴𝐴2的松紧度没有显著差异。此外,下界的𝐸𝑃𝐴𝐴是更严格的比𝑃𝐴𝐴2下𝐶𝑁𝐸𝐷和𝐶𝑁𝐷𝑇𝑊测量。原因是,较大的𝛼和𝛽,𝑅𝑐𝑜𝑛𝑠变得更宽松,并更难计算的下界为𝑃𝐴𝐴和𝐸𝑃𝐴𝐴的方法。由于采用了𝐸𝑃𝐴𝐴方法,所提出的算法在𝛼和𝛽的每一个组合中都是更好的,这有助于减少大𝑅𝑐𝑜𝑛𝑠的影响,并使𝐶𝑁𝐸𝐷和𝐶𝑁𝐷𝑇𝑊的下界更紧。这与第5.2节的结果一致。为了定位磁盘上的单元格,我们的索引包含包含单元格辅助信息的元数据,例如签名的范围、它在磁盘上的偏移量、所包含的段的数量等。.原创 2022-07-15 18:02:54 · 143 阅读 · 0 评论 -
Scalable Time Series Compound Infrastructure(sigmod2020)
从患者的体检记录到物联网(IoT)设备的传感器维修记录等,都以大时间序列的形式留下数字痕迹。这些时间序列对象不仅跨越了非常长的时间周期(有时是几年),而且其特点是断断续续但相互关联的时间序列测量被长时间的沉默间隔打断。这种流行的数据类型,我们称之为时间序列复合对象(或TSC),在文献中很大程度上被忽略了。当管理、查询和分析这些大型TSC对象的存储库时,会出现独特的挑战。这包括具有时间错位弹性的适当的相似性语义、对过长和复杂对象的有效存储,以及tsc整体索引。我们证明,最先进的时间序列系统,虽然有效地索引和搜原创 2022-06-22 16:41:30 · 155 阅读 · 0 评论 -
TSUBASA: Climate Network Construction on Historical and Real-Time Data(SIGMOD 2022)
气候网络通过一组异常时间序列的相互作用来表示全球气候系统。网络科学已应用于气候资料,以研究气候网络的动态。对气候数据进行网络动态分析的核心任务是高效地计算和更新历史和实时数据的用户自定义时间窗口的相关矩阵。我们提出了一种基于Pearson相关性的有效计算精确两两时间序列相关性的算法TSUBASA。通过预先计算简单的、低开销的草图,TSUBASA可以在查询时高效地计算任意时间窗口上的精确成对关联。对于实时数据,TSUBASA提出了一种快速增量更新相关矩阵的方法。我们提供了一个详细的时间和空间复杂性分析的TSU原创 2022-06-21 17:45:31 · 131 阅读 · 0 评论 -
iSAX 2.0: Indexing and Mining One Billion Time Series
在不同领域的几个应用程序日益迫切地需要开发能够索引和挖掘非常大的时间序列集合的技术。这类应用的例子来自天文学、生物学、网络和其他领域。这些应用程序涉及数亿到数十亿的时间序列并不罕见。然而,到目前为止,文献中提出的所有相关技术都没有考虑任何远远大于100万时间序列的数据收集。在本文中,我们描述了iSAX 2.0,一个为索引和挖掘真正的海量时间序列集合而设计的数据结构。我们证明了挖掘如此庞大的数据集的主要瓶颈是建立索引所需的时间,因此我们引入了一种新的批量加载机制,这是第一个专门针对时间序列索引定制的机制。我们原创 2022-06-07 00:00:43 · 84 阅读 · 0 评论 -
A Data-adaptive and Dynamic Segmentation Index for Whole Matching on Time Series
时间序列的相似性搜索是许多应用中必不可少的操作。在最先进的方法中,如基于r树的方法,SAX和iSAX,默认情况下,时间序列被全局划分为等长的段,也就是说,所有时间序列都以相同的方式分割。然后,这些方法将重点放在如何近似或表示分段和构造索引上。在本文中,我们做了一个重要的观察:所有时间序列的全局分割可能会在索引时间序列时产生不必要的空间和时间成本。我们开发了一种基于时间序列的数据自适应动态分割指标DSTree。除了节省空间和时间之外,我们的新指数还可以提供时间序列之间距离的严格上界和下界。一项广泛的实证研究表原创 2022-06-07 00:01:17 · 195 阅读 · 0 评论 -
Indexing for Interactive Exploration of Big Data Series
摘要:许多应用程序不断产生大量的数据系列,在某些关键场景中,分析人员需要能够在这些数据可用时立即查询它们,而目前最先进的索引方法和非常大的数据系列集合无法实现这一点。在本文中,我们提出了第一个自适应索引机制,专门用于解决索引和查询非常大的数据系列集合的问题。主要的想法是,我们不是在完整的数据集上预先构建完整的索引,然后再查询,而是交互式地、自适应地构建部分索引,只针对用户提出查询的数据部分。最终的效果是,用户无需等待较长的时间来创建索引,而是可以立即开始探索数据序列。我们提出了一个详细的设计和评估自适应数据原创 2022-06-07 00:00:53 · 93 阅读 · 0 评论 -
Coconut: A Scalable Bottom-Up Approach for Building Data Series Indexes
许多现代应用程序产生大量需要分析的数据序列,需要高效的相似度搜索操作。但是,用于此目的的最先进的数据系列索引在性能或存储成本方面不能很好地适应大规模数据集。我们指出问题出在这样一个事实上:用于索引的数据序列的现有摘要无法排序,而将相似的数据序列保持在已排序的顺序中。这导致了两个设计问题。首先,传统的基于排序的批量装载算法无法使用。相反,索引构造是通过缓慢的自顶向下插入进行的,这会创建一个不连续的索引,导致许多随机I/ o。二是数据序列不能按中值在节点间平均排序和拆分;因此,大多数叶节点实际上几乎是空的。这会原创 2022-06-07 00:01:31 · 178 阅读 · 0 评论 -
Locality-Sensitive Hashing for Earthquake Detection: A Case Study of Scaling Data-Driven Science
摘要:在这项工作中,我们报告了局部敏感哈希(LSH)在大规模地震数据中的一种新应用。基于重复发生的地震之间的高波形相似性,我们的应用程序通过LSH搜索相似的时间序列片段来识别潜在的地震。然而,这种基于lsh的应用程序的简单实现难以扩展超过在单个地震台站测量的3个月连续时间序列数据。作为一个数据驱动的科学工作流的案例研究,我们演示了如何将领域知识整合到工作负载中,以提高效率和结果质量。我们描述了从预处理到后处理的分析管道的几个端到端优化,这使得应用程序可以扩展到多个地震台站测量的时间序列数据。我们的优化在端到原创 2022-06-07 00:01:52 · 100 阅读 · 0 评论 -
Temporal Fusion Transformersfor Interpretable Multi-horizon Time Series Forecasting
可扩展子序列匹配是支持从挖掘、预测到假设检验的大时间序列分析的关键。然而,最先进的子序列匹配技术不能很好地扩展到tb级的数据集。不仅索引构造变得非常昂贵,而且当查询子序列的长度超过几百个数据点时,查询响应时间也会迅速下降。虽然局部敏感哈希(Locality Sensitive hash, LSH)已经成为索引长时间序列的一个有前途的解决方案,但它依赖于执行多次数据传递的昂贵的哈希函数,因此对于大时间序列是不切实际的。在这项工作中,我们提出了一个轻量级的分布式索引框架,称为ChainLink,它支持tb级时间原创 2022-06-08 00:04:54 · 458 阅读 · 0 评论 -
A Density-Based Algorithmfor Discovering Clusters in LargeSpatial Databaseswith Noise(KDD-96)
A Density-Based Algorithmfor Discovering Clusters in LargeSpatial Databaseswith Noise(KDD-96)摘要聚类算法对解决空间数据中的分类问题很有吸引力,然而,大型空间数据对聚类算法产生了下列需求:减少输入参数所需要的领域知识,对不规则形状进行聚类以及在大数据上的高效率聚类。目前广为人知的聚类算法无法满足上述需求。本文提出一种新的聚类方法,叫做DBSCAN,是一个基于密度聚类的概念,可以用来解决不规则形状的聚类问题。D..原创 2022-06-01 08:58:06 · 1033 阅读 · 0 评论 -
PPQ-Trajectory: Spatio-temporal Quantization for Querying in Large Trajectory Repositories
PPQ-Trajectory: Spatio-temporal Quantization for Querying in Large Trajectory Repositories摘要:提出了一种基于时空量化的大动态轨迹数据查询解决方案——ppq -轨迹。PPQ-轨迹包括一个分区预测量化器(PPQ),它生成带有自相关和基于空间邻近的分区的错误有界码本。代码本被索引以在压缩轨迹上运行近似和精确的时空查询。PPQ-trajectory包含一个坐标四叉树编码,用于支持精确查询的码本。使用基于增量时间分区的索引原创 2022-05-31 09:04:51 · 193 阅读 · 0 评论