时间序列数据
时间序列数据是按时间顺序按固定时间间隔排列的观测值的集合。每个观察对应于一个特定的时间点,并且可以以各种频率(例如,每天、每月、每年)记录数据。此类数据在许多领域都非常重要,包括金融、经济、气候科学等,因为它有助于通过分析时间序列数据来掌握潜在模式、发现趋势和发现季节性波动。
什么是时间序列分析?
评估时间序列数据以确定相关统计数据和其他数据属性的技术称为时间序列分析。任何具有重复模式的时间序列,包括金融市场、天气和社交媒体统计数据,都可能受到影响。时间序列分析的主要目标是研究有关市场趋势和经济周期的关键思想。
可视化在从时间序列数据中获取有洞察力的信息的过程中至关重要,使我们能够理解复杂的关系并做出明智的决策。
本文介绍了几种类型的绘图,可帮助您使用 Python 进行时间序列分析,并提供使用可免费访问的数据集的详细示例。
数据集描述
数据集:太阳黑子数据集
什么是太阳黑子?
太阳黑子是太阳表面的区域,称为光球层,此处磁场集中,导致表面温度低于周围环境。太阳复杂的磁活动是产生这些黑色区域的原因。
太阳黑子的观测和记录已有多年,其中一些最早的记录来自古代文明。他们的研究极大地有助于了解太阳行为、太空天气及其对地球气候和通信系统可能产生的影响。科学家仍在研究太阳黑子,以更多地了解太阳磁场的动态及其如何影响我们的太阳系。
数据集变量:数据集由 2 列组成 - 从 1749 年到 1983 年的“月份”和“太阳黑子”。它基本上描述了该数据集中记录的每个月在太阳上看到的太阳黑子的数量。
现在让我们开始编码吧!
导入必要的库
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.graphics.tsaplots import plot_pacf
导入数据集
# 加载每月太阳黑子数据集
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/monthly-sunspots.csv"
data = pd.read_csv(url, parse_dates=['Month'], index_col='Month')
print(data)
输出:
Sunspots
Month
1749-01-01 58.0
1749-02-01 62.6
1749-03-01 70.0
1749-04-01 55.7
1749-05-01 85.0
... ...
1983-08-01 71.8
1983-09-01 50.3
1983-10-01 55.8
1983-11-01 33.3
1983-12-01 33.4
[2820 rows x 1 columns]
现在,我们可以开始了解各种类型的绘图及其在 Python 中的实现。
地块类型
1. 时间图
时间序列数据最基本的表示形式之一是时间图,有时称为时间序列图。x 轴是时间,y 轴是相关变量,按时间顺序显示数据点。
本研究中使用时间图来显示 1749 年至 1983 年整个数据集期间太阳黑子数量的每月波动。我们可以通过查