时间序列数据分析

本文介绍了ETNA和PyTimeTK两个库在时间序列数据分析中的应用。首先,详细探讨了ETNA的时间序列处理技术,包括可视化、自相关和偏自相关、互相关、相关性热图、分布、趋势、季节性以及变化点的可视化。接着,阐述了PyTimeTK的数据可视化功能。然后,讨论了ETNA库在异常值检测上的四种方法:中位数法、密度法、预测区间法和直方图方法。最后,提到了Pytimetk在异常检测中的时间序列分解技术,如STL和Twitter方法。
摘要由CSDN通过智能技术生成

第一篇 时间序列数据处理技术

1. ETNA 时间序列库

1.1 可视化

在这里插入图片描述

1.2 自相关和偏自相关

自相关函数(AFC)描述了观测值与其滞后之间的直接关系。AFC 图有助于确定移动平均模型的滞后程度。
偏自相关函数(PAFC)描述了观测值与其滞后之间的直接关系。PAFC 图有助于确定自回归模型中的滞后程度。
让我们观察时间序列的 AFC 和 PAFC 图,指定最大滞后数。

acf_plot(ts, lags=21)

在这里插入图片描述

acf_plot(ts, lags=21, partial=True)

在这里插入图片描述

1.3 互相关

互相关通常用于比较多个时间序列,并确定它们之间的匹配程度,特别是在哪个点发生最佳匹配。互相关值越接近,集合越接近。
让我们绘制数据集中所有时间序列对的互相关。

cross_corr_plot(ts, maxlags=100)

在这里插入图片描述

1.4 相关性热图

相关性热图是数据集中时间序列之间成对相关矩阵的可视化。它是一个简单的可视化工具,可用于确定数据集中的相关时间序列。
让我们看一下相关性热图,在数据集中添加滞后列,以捕获相关但有一些偏移的序列。

from etna.transforms import LagTransform
lags = LagTransform(in_column="target", lags=[1, 7], out_column="lag")
ts.fit_transform([lags])
plot_correlation_matrix(ts, segments=["segment_a", "segment_b"], method="spearman", vmin=0.5, vmax=1)

在这里插入图片描述

1.5 分布

按线段和时间频率分组的 z 值分布。使用此图,您可以监控数据随时间的漂移。
让我们比较数据集中每年的分布。

distribution_plot(ts, freq=
  • 7
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值