时间序列聚类
野生胡萝卜
这个作者很懒,什么都没留下…
展开
-
结构VAR模型的线性广义条件独立图
对结构VAR模型中不同时刻随机变量建立有向非循环图(DAG),要检验随机变量之间的条件独立性,然后再对存在的相依联系确定方向。1.线性结构VAR模型和线性广义条件独立图的定义根据DAG的定义,并不是所有的VAR模型的因果相依联系都可以用DAG表示,首先提出线性结构VAR模型的定义。设Xt\mathbf{X}_{t}Xt是一个k维时间序列,et\mathbf{e}_{t}et是一个k维白噪声序列。线性结构VAR模型 设k维时间序列{Xi,t,t∈Z}(i=1,2,...,k)\left \{ X_{原创 2020-12-24 22:02:50 · 482 阅读 · 0 评论 -
时间序列建立图模型(四)
多维非线性时间序列的条件互信息图模型1.多维非线性时间序列条件互信息图的定义用顶点表示分量序列,用顶点之间的边表示分量序列间存在的相依联系。设Xt=(X1,t,X2,t,...,Xk,t)(t∈Z)X_{t}=(X_{1,t} , X_{2,t},...,X_{k,t})(t\in Z)Xt=(X1,t,X2,t,...,Xk,t)(t∈Z)为一个k维时间序列,表示XtX_{t}Xt各分量序列之间存在的相依联系的图G=(V,E)G=(V,E)G=(V,E)由顶点集V=(1,2,...,k)V=原创 2020-12-21 20:20:02 · 505 阅读 · 0 评论 -
时间序列建立图模型(三)
多维时间序列图模型涉及时间序列之间复杂的直接和间接相依联系,因此成对的独立性检验不能满足要求,用于度量条件独立性更合适的统计量是条件互信息。本节主要介绍检验非线性时间序列相依联系的条件互信息统计量及其性质。1.非线性时间序列相依联系的条件互信息检验方法要建立观测数据的图模型,一个重要步骤是检验图中的边所表示的独立性。要利用时间序列图模型对数据进行分析,需要先建立当前变量XtX_{t}Xt对滞后变量Xt−1,Xt−2,...,Xt−p,εt−1,εt−2,...,εt−qX_{t-1},X_{t-2}原创 2020-12-21 15:30:47 · 786 阅读 · 0 评论 -
时间序列建立图模型(二)
1.Lasso方法的定义Lasso方法是指将最小二乘法的损失函数与ℓ1\ell _{1}ℓ1范数相结合,即对回归系数的绝对值之和施加约束。与最小二乘法相比,ℓ1\ell _{1}ℓ1范数所添加的约束可以收缩系数,甚至可以迅速使系数为0,在参数估计的同时实现了模型选择,因此Lasso方法为线性回归提供了一种自动选择模型的方法,并且该方法得到的优化问题是凸的,从而能够有效地解决大规模数据处理的问题。设有n对观测数据(xi,yi)(x_{i},y_{i})(xi,yi),其中xi=(xi1,xi2,.原创 2020-12-20 22:49:03 · 607 阅读 · 1 评论 -
时间序列建立图模型(一)
由时间序列建立图模型,首先要检验顶点表示的变量(或序列)之间的各种相依联系,即对时间序列做独立性检验。目前信息论中的熵度量方法由于能够捕捉时间序列中的相依联系,且不需要对数据产生过程进行严格的参数假设,因此成为研究热点。1.Shannon熵和互信息设连续型随机变量¥...原创 2020-12-19 21:02:50 · 1105 阅读 · 1 评论 -
结构VAR模型和图表示
1.结构向量自回归VAR (p)(p)(p)模型设平稳过程{Yt,t∈Z}\left \{ Y_{t},t\in Z \right \}{Yt,t∈Z}均值为0,对任意t,有Yt=A1Yt−1+A2Yt−2+...+ApYt−p+UtY_{t}=A_{1}Y_{t-1}+A_{2}Y_{t-2}+...+A_{p}Y_{t-p}+U_{t}Yt=A1Yt−1+A2Yt−2+...+ApYt−p+Ut其中,Yt=(Y1,t,Y2,t,...,YK,t),A1,A2,...,ApY_{t原创 2020-12-18 23:04:57 · 1471 阅读 · 1 评论 -
多维时间序列的偏相关图
假设 {Yi,t,t∈Z}(i∈V)\left \{ Y_{i,t},t\in Z \right \} \left ( i\in V \right ){Yi,t,t∈Z}(i∈V)是一个K维时间序列,其中顶点集V={1,2,...,K}V=\left \{ 1,2,...,K \right \}V={1,2,...,K}。1.偏误差过程{Yj∣V∖{j,K},t}\left \{ Y_{j|V\setminus \left \{ j,K \right \}},t \right \}{Yj∣V∖{j,K原创 2020-12-18 21:36:07 · 480 阅读 · 1 评论 -
数据集处理方法之多维时间序列篇
多维时间序列取出来的值是一个m*n的矩阵。以UCI数据集中RobotFailure为例,数据文件下载下来是这样的:其中每一段数据的第一行表示状态,其实也就是分类。每一列是一段时间序列,多段时间序列组成了MTS。具体的含义可以到官网上看。为了在接下来的程序中对这些时间序列进行聚类以及评估聚类效果,需要读取这些数据,并且将状态(分类)作为标签附在每一段数据上。鉴于标签和时间序列的格式不一致,本人采用了字典格式。具体代码如下:def seperate(infile): # 读取文件内容,鉴于lp1.d原创 2020-11-02 23:24:36 · 4411 阅读 · 2 评论 -
【论文翻译】A Novel Method for Fast and Accurate Similarity Measure in Time Series Field
摘要相似度度量是时间序列数据挖掘中的核心问题。尽管大多数解决这个问题的方法已经开发出来,但是随着数据量的快速增长,我们认为支持快速和准确的相似性度量是一个具有挑战性的需求。本文提出了一种新的时间序列表示模型和相似度度量方法,该方法能够捕捉时间序列的主要趋势,实现快速的相似度检测。我们将新方法与最先进的时间序列相似方法和降维方法进行了比较。介绍时间序列数据挖掘是一个受到广泛关注的研究课题,其目的是发现时间序列数据中隐藏的模式。这类数据的来源非常广泛,包括语音识别[1]、金融和市场数据分析[2]、生物医学原创 2020-10-26 17:23:06 · 622 阅读 · 0 评论 -
基于重要点的时间序列固定分段数分段算法
python代码:def CalculatePip(stpos, endpos, T): x1, y1 = stpos xn, yn = endpos total_err = 0 segpos = stpos for i in range(stpos[0]+1, endpos[0] - 1): xi = i yi = T[i] dis = abs((y1 + (yn - y1) * (xi - x1)) / (x...原创 2020-10-18 16:39:15 · 1348 阅读 · 5 评论 -
时间序列数据的分段线性表示
本文思想来自:时间序列数据的分段线性表示PLR算法以拟合误差为阈值,会出现两类问题:采用累积误差进行分段的算法对短时间内大波动数据不敏感,分段效果差;采用平均误差的分段算法在遇到长时间小波动数据后,对明显状态变化处理不敏感,各个子序列的开始与结束时间不精确。即,由于采用累积误差或平均误差,对一些状态变化的拐点不敏感。伪代码:python代码:def Select_Important_Points(T, R): X = [] for i in range(0, len(T原创 2020-10-17 23:13:39 · 4676 阅读 · 4 评论 -
一种优化的自底向上时间序列分段算法
文章思想来自:一种优化的自底向上时间序列分段算法经典自底向上算法的基本思想:将N个待分段的时间序列数据点两两连接,划分成不重合到的N/2个初始分段,并计算合并相邻段的拟合代价,即拟合误差。然后循环地从中选择拟合代价最小的,如果该最小值小于用户设定的分段阈值,则合并对应的两个相邻段,并重新计算合并的分段与它前后的分段的拟合代价。重复该过程,直到所有的拟合代价均不小于分段阈值,分段结束。**不足:**自底向上算法存在着偶数限制的不足,即算法要求待分段的数据点数为偶数个,初始分段长度为两个点,每次合并产生的分原创 2020-10-17 22:38:20 · 1547 阅读 · 1 评论 -
时间序列分段法
文献参考:An Online Algorithm for Segmenting Time Series一、时间序列分段优点:时间序列分段是指将长度为n的时间序列T用K条直线来拟合。因为K通常比n小得多,这种表示方式使得数据的存储、传输和计算更加高效。具体来说,在数据挖掘中,分段算法可以:支持快速精确类似搜索;支持新的距离度量,包括模糊查询,加权查询,多分辨率查询,动态时间扭曲和相关性反馈等;支持并行挖掘文本和时间序列;支持新的聚类和分类算法; 支持改变点检测二、分段算法总体思路给定一个原创 2020-10-17 21:53:45 · 17292 阅读 · 9 评论 -
【论文翻译】Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
摘要多元时间序列的子序列聚类是发现时态数据中重复模式的有用工具。 一旦这些模式被发现,看似复杂的数据集就可以解释为仅有少量状态或集群的时间序列。 例如,来自健身跟踪应用程序的原始传感器数据可以表示为选定的几个动作(即步行、坐着、跑步)的时间线。 然而,发现这些模式是具有挑战性的,因为它需要同时分割和聚类时间序列。 此外,解释由此产生的簇是困难的,特别是当数据是高维的。 在这里,我们提出了一种新的基于模型的聚类方法,我们称之为TICC。在TICC方法中,每个集群都是由相关网络或马尔可夫随机场(MRF)定义的原创 2020-08-31 17:09:55 · 2855 阅读 · 3 评论