写这个笔记的目的
1 为了考试方便复习,随时随地就可以开始复习
2 以后用到的时候方便找
3督促自己学习
笔记内容:老师上课的课件,中国MOOC中厦大开设的网课,吴喜之先生编写的教材
希望能不忘初心,争取把时间序列写完
文章目录
1.1 时间序列分析的一般问题
1.1.1 时间序列的含义
-
统计意义:就是将某一个指标在不同时间上的不同数值,按照时间的先后顺序排列而成的数列。
-
数学意义:如果我们对某一过程中的某一个变量或一组变量X(t)进行观察测量,在一系列时刻t_1,t_2…t_N(t为自变量,且t_1<t_2<t_3<…<t_N),得到的离散有序数集合X_t1,X_t2,…,X_tN称为离散数字时间序列,即随机过程的一次样本实现。
设X(t:t ∈ \in ∈T)是一个随机过程,X_ti(i=1,2,…,)是在时刻i对过程X(t)的观察值,则X_ti(i=1,2,…)称为一次样本实现,也就是一个时间序列。 -
系统意义:时间序列就是某一系统在==不同时间(地点,条件等)==的响应。
这个定义从系统运行的观点出发,不仅指出时间序列是按一定顺序排列而成的,这里的一定顺序既可以是时间顺序,也可以是具有各种不同意义的物理量,如代表温度,速度或其他单调递增地取值的物理量。
时间序列只强调顺序的重要性,而并非强调必须以时间顺序排列。
时间序列的特点
1.序列中的数据/数据点的位置依赖于时间,即数据的取值依赖于时间的变化,但不一定是时间t的严格函数。
2.每一时刻上的取值或数据点的位置具有一定的随机性,不可能完全准确地用历史值预测
3.前后时刻(不一定是相邻时刻)的数值或数据点的位置有一定的相关性,这种相关性就是系统的动态规律。
4.从整体上看,时间序列往往呈现某种趋势性或出现周期性变化的现象。
1.1.2 时间序列的分类
严平稳时间序列:时间序列的概率分布与时间t无关。
宽平稳时间序列:时间序列的一,二阶矩存在,且对任意时刻t满足(1)均值为常数,(2)协方差为时间间隔 τ \tau τ的函数。
非平稳时间序列:不具有平稳性即序列均值或协方差与时间有关的序列。
注:
-
如果没有明确提出严平稳,那平稳指的就是宽平稳。
-
在教材中遇到的肯定都是平稳(宽平稳),如果是比赛赛题或实际情况那就需要判断。
-
教材中所介绍的模型多数是假设服从高斯分布的时间序列模型,对于非高斯时间序列,可以通过变换,可近似看成非高斯时间序列。
为了对时间序列分析方法有一个比较全面的了解,现将时间序列分析的主要方法归纳如下:
注:时间序列分析方法如果按其采用的手段不同可概括为数据图法,指标法和模型法三类。这里说的采用的手段和上面思维导图中的方法不一样,不要混淆二者的概念。
数据图法:将时间序列在平面坐标系中绘出坐标图,根据图形直接观察序列的总趋势和周期变化以及异常值点,升降转折点。
评价:
- 方法简单,直观,易懂易用; 但获取的信息少且肤浅,分析结果的主观性较大。
指标法:通过一系列核心指标来反映所研究系统的动态特征。
模型法:对给定的时间序列,跟据统计理论和数学方法,建立描述该序列的适应或最优统计模型,进而据以进行预测或控制。现大多分析时间序列数据都采用这种方法。
时间序列分析的基本特征就是研究序列随时间发展的模式
1.1.3 时间序列分析区别于其他统计分析方法的特征
(可与回归分析相比较来理解这一小节的区别)
- 明确重视顺序的重要性
时间序列与其他变量数列不同 ,序列中的观察值是按照一定顺序取得的,并保持其顺序不变。这有这样,才能保证所研究现象的历史发展过程不改变。 - 时间序列中的观察值之间存在着一定的依存关系
一般的统计分析方法,要求每一变量各自独立,但是,由于任何现象的发展,一般都具有一定的惯性,因而,相应的时间序列中各时刻的观察值之间就体现为一定的依存关系。从某种意义上说,时间序列分析就是要定量的描述这种依存关系。 - 在对所研究系统未来行为的分析即预测推断的依据不同。
时序分析不是根据某一变量与其他变量之间的静态相关关系来预测该变量的未来变化,而是根据预测变量本身或其他相关变量过去的变化规律来预测未来的变化。
1.1.4 时间序列分析与数理统计学的主要区别
- 数理统计学的样本值是对同一随机变量进行n次独立重复试验的结果,或是n个相互独立,同分布的随机变量序列的一个实现==;==而时间序列则是某一随机过程的一次样本实现。
(这个马马虎虎可以理解) - 在数理统计学中,进行统计推断的目的主要是对一个随机变量的分布参数进行估计或假设检验;而在时间序列分析中,则是对某一时间序列建立统计模型。
(疑惑:时间序列建模属于统计推断???) - 数理统计学中的回归模型描述的是因变量与其他自变量之间的统计静态依存关系;而时间序列分析中的自回归模型描述的是某一变量自身变化的统计规律。是某一系统的现在行为与其历史行为之间的统计依存关系。
1.2 时间序列基本样式
时间序列数据根据其数据特征,可分为两大类,一类是平稳时间序列,基本样式是白噪声时间序列;另一类为非平稳时间序列,根据其具体的数据特征,其基本样式包括趋势性时间序列,季节性,条件异方差和异常观测值等。
1.2.1 平稳时间序列
当一个时间序列满足下面两个条件,我们称该序列是平稳的。
E
(
X
t
)
=
μ
,
t
=
1
,
2
,
.
.
.
,
T
E(X_t)=\mu,t=1,2,...,T
E(Xt)=μ,t=1,2,...,T
E
(
X
t
−
μ
)
(
X
t
−
k
−
μ
)
=
γ
k
,
t
=
1
,
2
,
.
.
.
,
T
且
k
=
.
.
.
,
−
2
,
−
1
,
0
,
1
,
2
,
.
.
.
E(X_t-\mu)(X_{t-k}-\mu)=\gamma_k,t=1,2,...,T且k=...,-2,-1,0,1,2,...
E(Xt−μ)(Xt−k−μ)=γk,t=1,2,...,T且k=...,−2,−1,0,1,2,...
其中
μ
,
γ
k
\mu,\gamma_k
μ,γk为常数。
1.2.1.1 白噪声时间序列
定义:如果时刻t以前的信息不能对时刻t的值X_t提供任何信息,并且如果对X_t+h的最好预测值或期望等于0,那么这样的时间序列就是白噪声时间序列。
简而言之,白噪声序列是零均值,同方差,不存在相关性。独立同分布随机变量是一个白噪声序列即
E
(
a
t
)
=
0
,
t
=
1
,
2
,
.
.
.
,
n
E(a_t)=0, t=1,2,...,n
E(at)=0,t=1,2,...,n
E
(
a
t
2
)
=
σ
2
,
t
=
1
,
2
,
.
.
.
,
n
E(a_t^2)=\sigma^2, t=1,2,...,n
E(at2)=σ2,t=1,2,...,n
E
(
a
t
a
s
)
=
0
,
t
=
1
,
2
,
.
.
.
,
n
且
s
≠
t
E(a_t a_s)=0, t=1,2,...,n且s\neq t
E(atas)=0,t=1,2,...,n且s=t
注:白噪声序列只是平稳时间序列中的一种,除白噪声序列外,还有许多序列是平稳时间序列。
1.2.2 非平稳时间序列
- 根据序列的一阶矩和二阶矩分为均值非平稳和方差非平稳。
- 根据其具体数据特征,其基本样式包括趋势性时间序列,季节性,条件异方差和异常观测值。
- 趋势性又分为确定性趋势时间序列(线性趋势,指数趋势)和随机性趋势等
注:均值非平稳和方差非平稳会在就、下一章讨论,这一节只会讨论根据具体数据特征划分的非平稳时间序列。
确定性趋势时间序列
当一个时间序列为均值非平稳,且均值可由一个特定的时间趋势表示时,称该序列为确定性趋势时间序列。用一般的回归模型描述为:
y
t
=
∫
(
t
)
+
a
t
,
t
=
1
,
2
,
.
.
.
y_t=\int(t)+a_t, t=1,2,...
yt=∫(t)+at,t=1,2,...
其中,
∫
(
t
)
\int(t)
∫(t)表示为y_t中随时间变化的均值,a_t是y_t剔除趋势性或周期性后的部分通常为平稳部分。
线性趋势时间序列
y
t
=
a
0
+
a
1
t
+
a
t
,
t
=
1
,
2
,
.
.
.
y_t=a_0+a_1 t+a_t,t=1,2,...
yt=a0+a1t+at,t=1,2,...
其中at是独立同分布,且
E
(
a
t
)
=
0
,
E
(
a
t
2
)
=
σ
2
E(a_t)=0,E(a_t^2) =\sigma^2
E(at)=0,E(at2)=σ2,a1与t相乘形成了一个线性时间趋势
在a0,at不变时,a1度量了yt从一个时期到下一个时期的变化,即
Δ
y
t
=
y
t
−
y
t
−
1
=
a
1
\Delta y_t=y_t - y_{t-1}=a_1
Δyt=yt−yt−1=a1
指数趋势时间序列
定义:当一个序列从一个时期到另一个时期的平均增长率为恒定时,服从指数趋势。若时间序列为非线性的,常用指数趋势能更好的逼近。
模型的建立:
- 首先建立线性趋势的自然对数模型 l o g y t = β 0 + β 1 t + a t , t = 1 , 2 , . . . logy_t=\beta_0+\beta_1 t+a_t, t=1,2,... logyt=β0+β1t+at,t=1,2,...
- 然后两边指数化 y t = e x p ( β 0 + β 1 t + a t ) y_t=exp(\beta_0+\beta_1 t+a_t) yt=exp(β0+β1t+at)
其中at与线性趋势时间序列中at相同。
随机趋势时间序列
当我们可以用差分的方式去掉时间序列的趋势性时,就称序列具有随机趋势。随机趋势序列可以用下面的模型来表示,该模型又称带漂移的随机游走模型:
y
t
=
μ
+
y
t
−
1
+
a
t
,
t
=
1
,
2
,
.
.
.
,
T
y_t=\mu+y_{t-1}+a_t, t=1,2,...,T
yt=μ+yt−1+at,t=1,2,...,T
季节性时间序列
定义:对于给定的时间序列,当观测值呈现出周期性变化规律时,就称为季节性时间序列。
表现方式:
- 在某个季节的观测值与其他季节的观测值显著不同;
- 时间序列的方差呈现周期性波动;
条件异方差
条件异方差是指时间序列的方差不再是常数,表现在时序图上观测值倾向于成群出现。
条件异方差更多出现与经济时间序列,尤其是金融时间序列。
异常值
定义:对于一个给定的时间序列,如果一个或多个观测值与其他观察值有显著的不同,就称出现了异常观测值,又叫离散点。
1.3 时间序列分析工具
老师上课讲了SAS,eviews,但是都不会用,而且网上关于这两个软件的学习资料也比较少,所以我也不打算学,还是主用python和R,这才是现在统计分析的趋势,