目前,许多应用,如物联网和工业互联网,从传感器连续收集数据点,形成长时间序列。发现时间序列之间的相关性是许多时间序列挖掘问题的基本任务。然而,现有的工作要么局限于检测关系的类型,如仅检测线性相关关系,要么未处理复杂的时间关系,如未考虑非对齐窗口或可变窗口长度。本文提出了一种有效的方法——非线性相关搜索(NLC),用于搜索两个长时间序列上的相关窗口对。首先,提出窗口收缩和窗口扩展两种策略,快速找到高质量的相关窗口对候选;然后,通过嵌套一维搜索方法对候选集进行优化;进行了系统的实证研究,验证了所提出方法在合成和真实数据集上的效率和有效性。
阅读者总结:这篇论文在检索长时间序列最大信息熵窗口对问题上,主要创新:1)提出了这个问题,应该说,整篇论文的最大亮点在于问题本身。文中设计的算法不算很新颖,简单说就是find-refine两个过程。2)文中另一方面 是在分析这个问题上,采用数据驱动的方式,很有说服力,使阅读者相信这个问题值得采用新办法解决,同时在写作和文章布局上值得学习。
3)这篇论文和ICDE 2022上对齐窗口索引压缩问题,有类似的背景。但是ICDE上考虑的时间窗口对齐,没有考虑窗口时间延迟。因此这篇论文其实可以借鉴ICDE上的方式,以查询索引的方法寻找相关延迟窗口对,感觉上来说,查询时间和效率应该会比当前采用放缩窗口的方法要高很多。