Dynamic Multi-Network Mining of Tensor Time Series

系列文章目录

张量时间序列的动态多网络挖掘 WWW'24



摘要

时间序列的子序列聚类是数据挖掘中的一项重要任务,而解释聚类结果也是至关重要的,因为我们通常不具有数据的先验知识。因此,给定一个包含多个模式(包括时间戳)的张量时间序列的大集合,我们如何实现张量时间序列的子序列聚类并提供可解释的见解?本文提出了一种新的动态多网络挖掘方法–动态多网络挖掘(Dynamic Multi-network Mining,DMM),该方法将一个张量时间序列转换为一组不同长度(即,簇),其特征在于依赖网络受1-范数约束。我们的方法具有以下属性。(a)可判读:它用多个网络来表征集群,每个网络是对应的非时间模式的稀疏依赖性网络,并且因此提供了对关键字关系的可见和可解释的洞察。(b)准确性:根据最小描述长度(MDL),从张量时间序列中发现具有不同网络的聚类。©可扩展性:当解决非凸问题以优化分段和聚类的数量时,它根据输入数据大小线性缩放,因此它适用于长范围和高维张量。在人工数据库上的大量实验结果表明,与其他方法相比较,所提方法的聚类率更高,具有更好的分类效果.然后,我们使用真实的数据集来证明DMM对于从张量时间序列中提供可解释的见解是有用的。


一、引言

物联网的发展促进了时间序列数据的收集,包括与汽车[27]、医疗[16,29]和金融[31,38]相关的数据,这些数据来自多种模式,如传感器类型、位置和用户,我们称之为张量时间序列(TTS)。这种数据的一个实例是在线活动数据,它以三种模式{查询、位置、时间戳}记录搜索量。这些TTS通常可被划分和分组为具有相似特征的子序列(即,簇)。时间序列子序列聚类[1,51]是一种有效的无监督探索性方法,用于识别时间序列中的动态变化和发现有趣的模式。与聚类数据一样,结果的可解释性也很重要,因为我们很少知道每个聚类指的是什么[33,36]。将集群建模为依赖性网络[14,40,43],其中节点是变量,边表示变量之间的关系,这清楚地解释了集群所指的是什么。考虑到TTS由多个模式组成[4,11,23],为了提供良好的解释,应当将集群建模为多个网络,其中每个网络是对应的非时间模式的依赖性网络。在上面的示例中,可以将群集建模为查询和位置网络,其中每个网络解释查询/位置之间的关系。有了这些网络,我们就可以理解为什么一个特定的集群会把自己与另一个集群区分开来,并推测在属于这个集群的一段时间里发生了什么。在这样一个TTS中,我们如何找到有助于更好地理解数据的具有可解释性的聚类?

时间序列子序列聚类的研究主要集中在单变量或多变量时间序列(UTS和MTS)。TTS是时间序列的一种推广,包括UTS和MTS。在这里,我们主要假设TTS具有三种或更多种模式。通常,UTS聚类方法使用基于距离的度量,例如动态时间规整[5]。这些方法专注于匹配原始值,而不考虑变量之间的关系,如果我们要解释MTS和TTS聚类,这是必不可少的。MTS聚类方法通常采用基于模型的聚类,例如,假设高斯[24]或阿尔马[47]模型,并试图找到从模型中恢复数据的聚类。聚类结果的可解释性取决于它们假设的模型。作为一种可解释聚类的技术,TICC [14]用依赖网络对MTS进行建模,并发现以前开发的方法无法找到的可解释聚类。然而,TTS聚类是一个更具挑战性的问题,不能简单地采用MTS方法,由于TTS的复杂性,源于多种模式,这引入了复杂的依赖关系和大量的数据大小。为了采用MTS聚类方法(例如,TICC)对于TTS,TTS必须被平坦化以形成高阶MTS。结果,该方法处理高阶MTS并混淆变量之间的所有关系,这可能捕获虚假关系并不必要地加剧可解释性。此外,它的计算时间大大增加的变量的数量在一个模式的增加。

本文提出了一种新的TTS子序列聚类方法-动态多网络挖掘(DMM)。1在我们的方法中,我们将每个聚类定义为多个网络,每个网络都是对应的非时态模式的稀疏依赖网络,因此可以被看作是帮助用户快速理解数据结构的可视图像。该算法在采用分治法的情况下,与输入数据的大小成线性关系,因此适用于长程高维张量.此外,基于最小描述长度(MDL)原则[12],我们的方法的聚类结果和每个用户定义的参数可以由单个标准确定。DMM是一种有用的TTS子序列聚类工具,可以对TTS进行多方面的分析和理解。

1.1 Preview of our results

图1显示了对Google Trends数据进行聚类的DMM结果,该数据由10个国家/地区与COVID-19相关的6个查询的10年每日网络搜索计数组成,形成了一个3阶的张量。图1(a)示出了TTS的聚类分配,其中每种颜色表示一个聚类。DMM将张量分为四个部分,并将其分为四个聚类,每个聚类都可以被解释为与不断演变的COVID-19社会反应相对应的不同阶段;因此,我们将这些阶段命名为“新冠肺炎之前”、“爆发”、“疫苗”和“适应”。值得注意的是,这个结果是在没有先验知识的情况下获得的。

图1(B)示出了每个集群的网络,即,具有在世界地图上绘制的节点的国家网络反映不同国家之间的依赖性,并且查询网络用于查询依赖性。这些网络,也被称为马尔可夫随机场(MRF)[37],说明了节点如何影响其他节点。网络中边的厚度和颜色表示节点之间的部分相关性的强度,这表示与简单相关性相比更强的关系。我们通过估计高斯逆协方差矩阵来学习网络。然后,根据定义,如果两个节点之间存在边,则节点直接相互依赖。否则,它们是条件独立的,给定其余节点。此外,我们对网络施加了一个101-范数惩罚以提高稀疏性,从而可以获得真实的网络和可解释性,并使该方法具有噪声鲁棒性[46,49]。这些网络提供了可见的和可解释的洞察力的关键关系的特点集群。

我们看到,这四个集群中的每一个都表现出独特的网络,这些网络随着不同的阶段而演变。在“新冠肺炎疫情之前”阶段,国家网络显示英语国家之间的边缘,表明它们之间的相互联系。在查询网络中,查询“疫苗”与“流感”相关。然而,在2020年开始的“疫情”期间,许多国家应对COVID-19大流行,导致国家网络的各种边缘。在该阶段的查询网络中,出现了与“冠状病毒”相关的新边,“冠状病毒”和“病毒”有着特别强的联系。在“疫苗”阶段,随着人们越来越关心对COVID-19的保护,查询“疫苗”与“新冠病毒”形成优势。此外,由于流感感染的人数比过去少,“流感”失去了优势。最后,在“适应”阶段,随着世界逐渐习惯这种情况,国家网络减少了边的数量,与“流感”相关的边重新出现,反映出在“新冠疫情之前”阶段观察到的网络的回归。

在这里插入图片描述
图一:DMM在Google趋势(#4 Covid)数据集上的有效性:(a)DMM可以将张量时间序列拆分为由颜色显示的有意义的子序列聚类(即,#绿色→“新冠肺炎之前”,#粉色→“疫情”,#灰色→“疫苗”,#蓝色→“适应”),以及(B)用国家和查询网络总结了它们变量之间的重要关系,其中节点显示单个变量,边缘的粗细和颜色是偏相关性,显示其相互作用的重要性。

1.2 Contributions

总之,我们提出DMM作为一个子序列聚类方法的TTS的基础上MDL原则,使每个集群的特点是多个网络。本文的贡献可归纳如下。

·可解释的:DMM实现了TTS的有意义的子序列聚类,其中每个聚类的特征在于每个非时态模式的稀疏依赖网络,这有助于从变量之间的重要关系来解释聚类。

准确:我们定义了一个基于MDL的标准来发现具有不同网络的集群。由于所提出的标准,可以确定任何用户定义的参数,并且DMM在合成数据的聚类准确性方面优于其最先进的竞争对手。

·可扩展:建议的聚类算法在DMM的规模线性输入数据的大小,因此适用于远程和高维张量。

纲要本文其余部分的组织结构如下。在第二节介绍了相关工作之后,第三节介绍了我们的问题和基本背景。然后,我们分别在第4节和第5节中提出了我们的模型和算法。我们在第6节和第7节中报告了我们的实验结果。

2 RELATEDWORK

我们回顾了与我们的工作密切相关的先前研究。时间序列子序列聚类。子序列聚类是时间序列数据挖掘中的一项重要任务,其好处是提取有趣的模式并提供有价值的信息,并且也可以用作其他任务的子例程,例如预测[32,39]。时间序列子序列聚类方法大致可以分为基于距离的方法和基于模型的方法。基于距离的方法使用动态时间规整[2,5,19]和最长公共子序列[44]等度量,并通过关注匹配原始值而不是数据中的结构来查找聚类。基于模型的方法为每个聚类假设一个模型,并找到数据与模型的最佳拟合。它涵盖了各种各样的模型,如阿尔马[47],马尔可夫链[34]和高斯[24]。然而,大多数以前的工作都集中在MTS和不适合TTS。很少有研究关注TTS聚类,例如,CubeScope [30]使用Dirichlet先验作为模型来实现在线TTS聚类,但它只支持稀疏分类数据。总之,现有的方法不是特别适合于处理TTS和发现可解释的集群。

张量时间序列TTS无处不在,出现在各种应用中,例如推荐和需求预测[3,25,45]。为了对张量建模,张量/矩阵分解,例如Tucker/CP分解[21]和SVD,是常用的技术。虽然它获得了一个低维表示,总结了张量的重要模式,但它很难捕捉时间信息[22]。因此,它经常与动力系统相结合来处理时间信息[8,17,35]。例如,SSMF [18]是一种使用聚类作为子例程的在线预测方法,它将动态系统与非负矩阵分解(NMF)相结合,以从TTS中捕获季节模式。SSMF中的每个簇的特征在于TTS的低维表示,然而,理解表示是有要求的。因此,张量/矩阵分解不适用于可解释的模型。

稀疏网络推理。推断稀疏逆协方差矩阵(即,网络)帮助我们以统计的方式理解变量的依赖性。图形套索[10],最大化高斯对数似然施加一个101-范数惩罚,是最常用的技术之一,用于从静态数据估计稀疏网络。然而,时间序列数据通常是非平稳的,并且网络随时间而变化;因此,为了推断时变网络,通常考虑与相邻网络的时间相似性[13]。由于网络的高度可解释性[41],已经研究了这种时变网络的监测,目的是分析经济数据[31]和生物信号数据[29]。虽然时变网络的推理能够通过比较变化前后的网络来找到变化点,但它无法找到聚类[15,42,48]。TICC [14]和TAGM [43]使用图形套索,并基于每个子序列的网络从时间序列中找到聚类,为聚类提供可解释性,并允许我们发现其他传统聚类方法无法找到的聚类。然而,他们不能提供一个可解释的见解时,处理TTS。因此,过去的研究还没有找到网络的TTS和一种方法来集群的TTS网络的基础上。我们的方法使用一个图形套索为基础的模型修改,提供可解释的聚类结果从TTS。

3 PROBLEM FORMULATION

在本节中,我们描述了我们想要分析的TTS,介绍了一些必要的背景材料,并定义了TTS聚类的形式化问题。

本文使用的主要符号在附录 A 中描述。考虑一个 (N+1)𝑡ℎ 阶 TTS X ∈ R D 1 × ⋯ × D N × T \mathcal{X} \in \mathbb{R}^{D_{1}\times\cdots\times D_{N}\times T} XRD1××DN×T,其中众数 (𝑁 + 1) 是时间及其 维数是 𝑇。 我们还可以将 TTS 重写为𝑁𝑡ℎ阶张量 { X 1 , X 2 , … , X T } \{X_{1},X_{2},\ldots,X_{T}\} {X1,X2,,XT}的序列,其中每个 X t ∈ R D 1 × ⋯ × D N ( 1 ≤ t ≤ T ) \mathcal{X}_{t} \in \mathbf{R}^{D_{1}\times\cdots\times D_{N}}(1 \leq t \leq T) XtRD1××DN(1tT)表示在 𝑡𝑡ℎ 时间步的观测数据。

3.1 Tensor algebra张量代数

本文从张量相关文献[8,21]中简要介绍了张量代数中的一些定义.

定义 1(重新排序)。 令有序集 P ( 1 ) , … , P ( G ) P^{(1)},\ldots,P^{(G)} P(1),,P(G), 其中 P ( g ) = { p 1 ( g ) , … , p n g ( g ) } ⊂ { 1 , 2 , … , N } P^{(g)} = \{p_{1}^{(g)},\ldots,p_{n_{g}}^{(g)}\} \subset \{1,2,\ldots,N\} P(g)={p1(g),,png(g)}{1,2,,N}是模式 { 1 , 2 , … , N } s . t . , ∑ g G n g = N \{1,2,\ldots,N\} s.t., \sum_{g}^{G}n_{g} = N {1,2,,N}s.t.,gGng=N。 将 𝑁𝑡ℎ 阶张量 X ∈ R D 1 × ⋯ × D N X \in \mathbf{R}^{D_{1}\times\cdots\times D_{N}} XRD1××DN重新排序为有序集定义为 r e ( X ) ( P ( 1 ) , . . . , P ( G ) ) ∈ R J ( 1 ) × ⋯ × J ( G ) re(X)^{(P^{(1)},...,P^{(G)})}\in\mathbf{R}^{J^{(1)}\times\cdots\times J^{(G)}} re(X)(P(1),...,P(G))RJ(1)××J(G),其中 J ( g ) = ∏ n ∈ P ( g ) D n J^{(g)}=\prod_{n\in P^{(g)}}D_{n} J(g)=nP(g)Dn

给定一个张量 X ∈ R D 1 ( 1 ) × ⋯ × D N ( 1 ) × D 1 ( 2 ) × ⋯ × D N ( G ) \mathcal{X}\in\mathbf{R}^{D_{1}^{(1)}\times\cdots\times D_{N}^{(1)}\times D_{1}^{(2)}\times\cdots\times D_{N}^{(G)}} XRD1(1)××DN(1)×D1(2)××DN(G),我们将模式划分为 𝐺, P ( g ) = { g N + 1 , ⋯   , g ( N + 1 ) } P^{(g)}=\{gN+1,\cdots,g(N+1)\} P(g)={gN+1,,g(N+1)}。 该元素由下式给出: r e ( X ) i ( 1 ) , . . . , i ( G ) ( P ( 1 ) , . . . , P ( G ) ) = X d 1 ( 1 ) , . . . , d N ( 1 ) , d 1 ( 2 ) , . . . , d N ( G ) , re(\mathcal{X})_{i^{(1)},...,i^{(G)}}^{(P^{(1)},...,P^{(G)})}=\mathcal{X}_{d_{1}^{(1)},...,d_{N}^{(1)},d_{1}^{(2)},...,d_{N}^{(G)}}, re(X)i(1),...,i(G)(P(1),...,P(G))=Xd1(1),...,dN(1),d1(2),...,dN(G), , 其中 i ( 1 ) i^{(1)} i(1)= 1 + ∑ q = 1 N ( d g ( 1 ) − 1 ) ∏ n = 1 g − 1 D n ( 1 ) 1+\sum_{q=1}^{N}(d_{g}^{(1)}-1)\prod_{n=1}^{g-1}D_{n}^{(1)} 1+q=1N(dg(1)1)n=1g1Dn(1)

重新排序的特殊情况是矢量化和矩阵化。 当 G = 1. v e c ( X ) = r e ( X ) ( { − 1 } ) ∈ R D G=1. vec(X)=re(X)^{(\{-1\})}\in\mathbf{R}^{D} G=1.vec(X)=re(X)({1})RD时发生矢量化,其中 D = ∏ n = 1 N D n   a n d   { − 1 } D=\prod_{n=1}^{N}D_{n}\mathrm{~and~}\{-1\} D=n=1NDn and {1} 指其余未设置的模式。 当 𝐺 = 2 并且 𝑃(1) 是单例时,会发生模式 n 矩阵化。 m a t ( X ) ( n ) = r e ( X ) ( { n } , { − 1 } ) ∈ R D n × D ( ∖ n ) mat(X)^{(n)}=re(X)^{(\{n\},\{-1\})}\in\mathbf{R}^{D_{n}\times D^{(\setminus n)}} mat(X)(n)=re(X)({n},{1})RDn×D(n),其中 D ( ∖ n ) D^{(\setminus n)} D(n)= ∏ m = 1 ( m ≠ n ) N D m \prod_{m=1(m\neq n)}^{N}D_{m} m=1(m=n)NDm

3.2 Graphical lasso

我们使用图形套索作为模型的一部分。 给定 (𝑁 + 1)𝑡ℎ 阶 TTS 的模式 (N+1) 矩阵化, m a t ( X ) ( N + 1 ) ∈ R T × D mat(X)^{(N+1)}\in\mathbb{R}^{T\times D} mat(X)(N+1)RT×D,图形套索 [10] 估计稀疏高斯逆协方差矩阵 ( 即网络) θ ∈ R D × D \theta\in\mathbb{R}^{D\times D} θRD×D,也称为精度矩阵,用它我们可以解释𝐷变量之间的成对条件独立性,例如,如果𝜃𝑖,𝑗 = 0,则变量𝑖和𝑗在给定所有值的情况下是条件独立的 其他变量。 优化问题如下:
在这里插入图片描述其中 𝜃 必须是对称正定 (𝑆𝑝 ++)。 𝑙𝑙(𝑥, 𝜃) 是对数似然, μ ∈ R D \mu\in\mathbb{R}^{D} μRD m a t ( X ) ( N + 1 ) mat(X)^{(N+1)} mat(X)(N+1) 的经验平均值。 𝜆 ≥ 0 是用于确定网络稀疏程度的超参数,∥·∥𝑜𝑑,1 表示非对角ℓ1-范数。 由于方程。 (1)是一个凸优化问题,利用乘子交替方向法(ADMM)[7]保证其解收敛于全局最优,并且可以加快求解时间。

3.3 Network-based tensor time series clustering

现实世界的复杂X不能用单个静态网络来表达,因为它包含多个序列模式,每个序列模式都有不同的关系/网络。 此外,我们很少提前知道最佳的聚类数量和聚类分配。 为了解决这个问题,我们希望提供一个合适的成本函数,并通过最小化成本函数来实现子序列聚类。 我们现在制定基于网络的 TTS 聚类问题。 它假设 X 的 𝑇 时间步可以基于 𝐾 网络(即簇)分为 𝑚 时间段。 令 𝑐𝑝 表示段的起始点集,即 c p = { c p 1 , c p 2 , … , c p m } cp=\{cp_{1},cp_{2},\ldots,cp_{m}\} cp={cp1,cp2,,cpm},X 的第 𝑖 段表示为 X c p i : c p i + 1 X_{cp_{i}:cp_{i+1}} Xcpi:cpi+1,其中 c p m + 1 = T + 1 cp_{m+1}=T+1 cpm+1=T+1。我们将每个 𝑇 点分组到由集群分配集 F = { f 1 , f 2 , … , f K } \mathcal{F}=\{f_{1},f_{2},\ldots,f_{K}\} F={f1,f2,,fK}表示的 𝐾 集群之一,其中 𝑓𝑘 ⊂ {1, 2, . 。 。 , 𝑇},我们将簇 𝑘 中的所有子序列称为 X [ f k ] ⊂ X X[f_{k}]\subset X X[fk]X。然后,令 θ 为模型参数集,即 Θ = { θ 1 , θ 2 , … , θ K } \Theta=\{\theta_{1},\theta_{2},\ldots,\theta_{K}\} Θ={θ1,θ2,,θK},每个 θ k ∈ R D × D \theta_k\in\mathbb{R}^{D\times D} θkRD×D是一个稀疏高斯逆协方差矩阵,总结了 X[𝑓𝑘 ] 中变量的关系。 因此,整个集群参数集由 M = { M 1 , M 2 , … , M K } \mathcal{M}=\{\mathcal{M}_{1},\mathcal{M}_{2},\ldots,\mathcal{M}_{K}\} M={M1,M2,,MK}给出,由 M k = { θ k , f k } \mathcal{M}_{k}=\{\theta_{k},f_{k}\} Mk={θk,fk} 组成。 总的来说,我们要解决的问题写成如下。

问题 1. 给定张量时间序列 X,估计:
• 聚类分配集, F = { f k } k = 1 K \mathcal{F}=\{f_{k}\}_{k=1}^{K} F={fk}k=1K
• 模型参数集, Θ = { θ k } k = 1 K \Theta=\{\theta_{k}\}_{k=1}^{K} Θ={θk}k=1K
• 最小化聚类数 𝐾 成本函数方程 (5)。

4 PROPOSED DMM

在本节中,我们提出了一种实现基于网络的 TTS 聚类的新模型,即 DMM。 我们首先描述我们的模型𝜃,然后定义确定聚类分配和聚类数量的标准。

4.1 Multimode graphical lasso

假设给定 𝐾, F,这里我们讨论如何定义和推断模型 θ k \theta_{k} θk。 原始的图形套索允许 θ k \theta_{k} θk 连接张量中的任意变量对; 然而,它的维度太高,无法单独揭示非时间模式的关系。 为了避免过度代表性,我们的目标是通过将 θ k \theta_{k} θk分离成多模式来捕获多方面关系,并在其中添加所需的可解释性约束。

我们假设 𝜃 源自 𝑁 网络, { A ( 1 ) , … , A ( N ) } \{A^{(1)},\ldots,A^{(N)}\} {A(1),,A(N)},其中 A ( n ) ∈ R D n × D n A^{(n)}\in\mathbf{R}^{D_{n}\times D_{n}} A(n)RDn×Dn 是第 𝑛 网络。 例如,元素 a i , j ( n ) ∈ A ( n ) a_{i,j}^{(n)}\in A^{(n)} ai,j(n)A(n)指的是模式 n 的第 𝑖 和 𝑗 变量之间的关系,在每个网络中,目标是捕获𝐷𝑛 变量之间的依赖关系 。 我们还假设除了仅在模式 n 不同的变量之间不存在任何关系。 因此, θ = θ ( N ) \theta=\theta^{({N})} θ=θ(N)成为形状为 𝐷 ×𝐷 的 𝑁𝑡ℎ 分层矩阵。 θ ( n ) \theta^{(n)} θ(n)可以写成如下:

在这里插入图片描述
其中 θ ( 1 ) = A ( 1 )   a n d   C i , j ( n ) ∈ R ∏ m = 1 n − 1 D m × ∏ m = 1 n − 1 D m \theta^{(1)}=A^{(1)}\mathrm{~and~}C_{i,j}^{(n)}\in\mathbb{R}^{\prod_{m=1}^{n-1}D_{m}\times\prod_{m=1}^{n-1}D_{m}} θ(1)=A(1) and Ci,j(n)Rm=1n1Dm×m=1n1Dm 是一个对角矩阵,其对角元素为 a i , j ( n ) ∈ A ( n ) , i . e . , C i , j ( n ) = a i , j ( n ) ⋅ δ i . j a_{i,j}^{(n)}\in A^{(n)},\mathrm{i.e.},C_{i,j}^{(n)}=a_{i,j}^{(n)}\cdot\delta_{i.j} ai,j(n)A(n),i.e.,Ci,j(n)=ai,j(n)δi.j。 𝑗 允许边仅在模式 n 上不同,其中 δ i . j \delta_{i.j} δi.j是克罗内克三角洲。

我们扩展图形套索,通过从 TTS 推断稀疏 A ( n ) A^{(n)} A(n)来获得 𝜃。 优化问题写成如下:

在这里插入图片描述
其中 μ d ∈ R D n \mu_d\in\mathbb{R}^{D_n} μdRDn是变量 𝑟𝑒(X):,𝑑,: ∈ R T × D n \mathbb{R}^{T\times D_n} RT×Dn的经验平均值。 等式。 (3)是ADMM求解的凸优化问题。 我们将对数似然除以 D ( ∖ n ) D^{(\setminus n)} D(n) 来缩放样本大小。

4.2 Data compression

为了确定聚类分配集 F 和聚类数量 𝐾,我们使用 MDL 原理 [12],该原理遵循这样的假设:我们压缩数据越多,我们就越能概括其底层结构。 modelM的优点可以用以下总描述成本来描述:
在这里插入图片描述
我们描述了方程式中出现的四个术语。 (5)。

编码长度成本。 C o s t A ( F ) Cost_{A}(\mathcal{F}) CostA(F)是聚类分配集 F 的描述复杂度,由以下元素组成:聚类𝐾 和段𝑚 的数量,需要 log ⁡ ∗ ( K ) \log^{*}(K) log(K) + log ⁡ ∗ ( m ) \log^*(m) log(m)。 2 将段分配给簇需要 m × log ⁡ ∗ ( K ) m\times\log^*(K) m×log(K)。 每个簇的观测值数量需要 ∑ k = 1 K log ⁡ ∗ ( ∣ f k ∣ ) \sum_{k=1}^K\log^*(|f_k|) k=1Klog(fk)

在这里插入图片描述
模型编码成本。 C o s t M ( Θ ) Cost_{M}(\Theta) CostM(Θ)是模型参数集 θ 的描述复杂度,由以下元素组成:每个层次上每个簇的对角线值,大小为 𝐷𝑛 × 1,需要 D n ( log ⁡ ( D n ) + c F ) D_n(\log(D_n)+c_F) Dn(log(Dn)+cF), 其中𝑐𝐹是浮点成本。 3 A ( n ) ∈ R D n × D n A^{(n)}\in\mathbb{R}^{D_{n}\times D_{n}} A(n)RDn×Dn 的正值需要 ∣ A k ( n ) ∣ ≠ 0 ( log ⁡ ( D n ( D n − 1 ) / 2 ) + c F ) , |A_{k}^{(n)}|_{\neq0}(\log(D_{n}(D_{n}-1)/2)+c_{F}), Ak(n)=0(log(Dn(Dn1)/2)+cF),,其中 | · |≠0 描述矩阵中非零元素的数量。

在这里插入图片描述
我们除以𝐷2 𝑛𝑁来处理数据规模的变化。
数据编码成本。 C o s t C ( X ∣ M ) Cost_C(\mathcal{X}|\mathcal{M}) CostC(XM)是给定集群参数 setM 的 X 的数据编码成本。 霍夫曼编码 [6] 使用值的概率倒数(即负对数似然)的对数。
在这里插入图片描述
ℓ1-范数成本。 C o s t ℓ 1 ( Θ ) Cost_{\ell_1}(\Theta) Cost1(Θ)是给定模型 θ 的 ℓ1 范数成本。

在这里插入图片描述
发现能够对数据进行建模的最佳稀疏参数𝜆是一个挑战,因为它会影响聚类结果。 然而,可以通过使用MDL来选择最小总成本来确定参数值[26]。

我们的下一个目标是找到最佳的聚类参数集 M,以最小化总描述成本 (5)。

5 OPTIMIZATION ALGORITHMS

到目前为止,我们已经描述了基于图形套索的模型和基于 MDL 的标准。 最重要的问题是如何发现好的分割和聚类。 在这里,我们提出了一种有效且可扩展的算法,它可以找到方程的局部最优值。 (5)。 Alg 中总结了整个过程。 1. 给定 (𝑁+1)𝑡ℎ 阶 TTSX,总描述成本 Eq. 使用以下两个子算法最小化(5)。

(1)CutPointDetector:找到线段𝑚的数量及其分割点,即X的最佳分割点集𝑐𝑝。
(2)ClusterDetector:求簇数𝐾和簇参数集M。

在这里插入图片描述

在这里插入图片描述
图 2:三位候选人的插图。 我们比较每个候选者的总描述成本。

5.1 CutPointDetector

第一个目标是将给定的 X 划分为 𝑚 段(即模式),但我们假设事先不知道有关它们的信息。 因此,为了防止在搜索最佳分割点时出现模式爆炸,我们引入了基于分而治之方法的 CutPointDetector [20]。

具体来说,它递归地合并 X 的一个小片段集,同时降低其总描述成本,因为相邻子序列通常表现出相同的模式。 我们将 w 定义为一组用户定义的初始段大小,即 w = { w i } i = 1 m \mathbf{w}=\{w_i\}_{i=1}^m w={wi}i=1m,例如每个月的天数或任何小常数。 图 2 显示了一个示例。令 θ i : i + 1 \theta_{i:i+1} θi:i+1为 𝑖𝑡ℎ 段上 X { c p i : c p i + 1 } X\{cp_{i}:cp_{i+1}\} X{cpi:cpi+1}的模型。 给定图 2 (a) 中所示的三个后续段,我们评估是否将中间段与任一侧段合并(图 2 (b)©)。 图 2 (a) 的总描述成本由 C o s t T ( X ; { θ i : i + 1 , θ i + 1 : i + 2 , θ i + 2 : i + 3 } ) Cost_T(X;\{\theta_{i:i+1},\theta_{i+1:i+2},\theta_{i+2:i+3}\}) CostT(X;{θi:i+1,θi+1:i+2,θi+2:i+3})给出,其中我们省略了聚类分配 ( 例如,为了清楚起见,从成本中得出 { j } j = c p i c p i + 1 − 1 \{j\}_{j=cp_{i}}^{cp_{i+1}-1} {j}j=cpicpi+11})。 如果通过合并降低了原始三个段的成本,则消除了不必要的切点,并对合并后的段采用新模型𝜃。 通过对每个段重复此过程,𝑚 单调递减直至收敛。 详细程序参见附录B.1。

5.2 ClusterDetector

DMM 通过增加 𝐾 = 1, 2, ,𝑚 来搜索最佳簇数,而总描述成本 C o s t T ( X ∣ M ) Cost_T(X|\mathcal{M}) CostT(XM)正在减少。 然而,为了计算成本,我们必须解决两个问题,即获得聚类分配集F和模型参数集θ,其中一个问题会影响另一个问题的优化。 因此,我们使用期望和最大化(EM)算法来设计ClusterDetector。 在E步中,它确定F以最小化数据编码成本, C o s t C ( X ∣ M ) Cost_C(X|\mathcal{M}) CostC(XM),这是通过求解:
在这里插入图片描述
对于第 𝑖 段,然后将从 𝑐𝑝𝑖+1 到 𝑐𝑝𝑖+1 的时间点(即 { j } j = c p i c p i + 1 − 1 \{j\}_{j=cp_{i}}^{cp_{i+1}-1} {j}j=cpicpi+11)插入到最佳𝑘第 簇 f k ∈ F f_{k}\in\mathcal{F} fkF中。步, 对于 1 ≤ 𝑘 ≤ 𝐾,算法根据等式推断 A_{k}^{(n)}(1\leq n\leq N)。 (3) 对于给定的 X [ f k ] X[f_{k}] X[fk]获得 θ k ∈ Θ \theta_{k}\in\Theta θkΘ。 请注意,ClusterDetector 首先随机初始化 Θ \Theta Θ

Theoretical analysis.

引理 1.DMM 的时间复杂度为 O ( T ∏ m = 1 N D m ) O(T\prod_{m=1}^{N}D_{m}) O(Tm=1NDm),其中 𝑇 是数据长度,𝐷𝑚 是 (N+1)𝑡ℎ 阶 TTS X ∈ R D 1 × ⋯ × D N × T \mathcal{X}\in\mathbb{R}^{D_{1}\times\cdots\times D_{N}\times T} XRD1××DN×T 中模式为 m 的变量数量 。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值