Contents
最佳线性预测
最佳线性预测的概念
对于时间序列进行统计分析的主要目的之一是解决时间序列的预测问题。这里我们主要讨论平稳序列的预测问题。由于平稳序列的方差有限,所以我们总是假设以下内容中随机变量的方差有限。
首先,我们先来描述一下什么是线性预测问题。设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn 为某时间序列的一段, Y Y Y 是一个随机变量,我们考虑用 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn 的线性组合对 Y Y Y 进行预测。记
X = ( X 1 , X 2 , ⋯ , X n ) T , a = ( a 1 , a 2 , ⋯ , a n ) T ∈ R n , \boldsymbol{X}=(X_1,X_2,\cdots,X_n)^{\rm T} \ , \ \ \ \ \boldsymbol{a}=(a_1,a_2,\cdots,a_n)^{\rm T}\in\R^n\ , X=(X1,X2,⋯,Xn)T , a=(a1,a2,⋯,an)T∈Rn ,
则 Y Y Y 的线性预测有以下形式:
a T X = ∑ j = 1 n a j X j = X T a , a ∈ R n . \boldsymbol{a}^{\rm T}\boldsymbol{X}=\sum_{j=1}^na_jX_j=\boldsymbol{X}^{\rm T}\boldsymbol{a} \ , \ \ \ \ \boldsymbol{a}\in\R^n. aTX=j=1∑najXj=XTa , a∈Rn.
我们比较关注的是在上面的所有预测中找到最好的一个,即要找一个 a \boldsymbol{a} a ,使得 a T X \boldsymbol{a}^{\rm T}\boldsymbol{X} aTX 距离 Y Y Y 最近,于是引出最佳线性预测的定义。
设 Y Y Y 和 X j X_j Xj ( 1 ≤ j ≤ n ) (1\leq j\leq n) (1≤j≤n) 是均值为零,方差有限的随机变量。如果 a ∈ R n \boldsymbol{a}\in\R^n a∈Rn ,使得对任何的 b ∈ R n \boldsymbol{b}\in\R^n b∈Rn ,有
E ( Y − a T X ) ≤ E ( Y − b T X ) , {\rm E}(Y-\boldsymbol{a}^{\rm T}\boldsymbol{X})\leq{\rm E}(Y-\boldsymbol{b}^{\rm T}\boldsymbol{X})\ , E(Y−aTX)≤E(Y−bTX) ,
则称 a T X \boldsymbol{a}^{\rm T}\boldsymbol{X} aTX 是用 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn 对 Y Y Y 进行预测的最佳线性预测 ,记做 Y ^ \hat{Y} Y^ 或 L ( Y ∣ X ) L(Y|\boldsymbol{X}) L(Y∣X) 。于是
Y ^ = L ( Y ∣ X ) = a T X . \hat{Y}=L(Y|\boldsymbol{X})=\boldsymbol{a}^{\rm T}\boldsymbol{X} \ . Y^=L(Y∣X)=aTX .
当 Y ^ = a T X \hat{Y}=\boldsymbol{a}^{\rm T}\boldsymbol{X} Y^=aTX 时, Y − Y ^ = Y − a T X Y-\hat{Y}=Y-\boldsymbol{a}^{\rm T}\boldsymbol{X} Y−Y^=Y−aTX 被称为预测误差, E ( Y − Y ^ ) 2 = E ( Y − a T X ) 2 {\rm E}\left(Y-\hat{Y}\right)^2={\rm E}\left(Y-\boldsymbol{a}^{\rm T}\boldsymbol{X}\right)^2 E(Y−Y^)2=E(Y−aTX)2 被称为预测的均方误差。所以,在均方误差方差最小的意义下,最佳线性预测确实是所有线性预测中最好的。
注意如果 X \boldsymbol{X} X 和 Y Y Y 均不是零均值的,但有 L ( Y ∣ X ) L(Y|\boldsymbol{X}) L(Y∣X) 是用 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn 对 Y Y Y 的最佳线性预测,则一定有
E L ( Y ∣ X ) = E Y , {\rm E}L(Y|X)={\rm E}Y \ , EL(Y∣X)=EY ,
这与零均值时的情况是一致的,因此以后的讨论我们都假设随机变量的均值为零。
用 Γ = E ( X X T ) \boldsymbol\Gamma={\rm E}\left(\boldsymbol{X}\boldsymbol{X}^{\rm T}\right) Γ=E(XXT) 表示 X \boldsymbol{X} X 的协方差阵,用 Σ X Y = E ( X Y ) \boldsymbol\Sigma_{\boldsymbol{X}Y}={\rm E}(\boldsymbol{X}Y) ΣXY=E(XY) 表示 X \boldsymbol{X} X 和 Y Y Y 的协方差向量。
预测方程及其求解
预测方程的解
在定义了最佳线性预测之后,我们想知道在已知 X \boldsymbol{X} X 和 Y Y Y 的情况下如何找到最佳线性预测,换句话说我们想知道如何找到这个“最好”的 a \boldsymbol{a} a 。接下来我们引出预测方程的概念和性质,这也是我们要讨论的最佳线性预测的性质 1 。
性质 1 :如果 a ∈ R \boldsymbol{a}\in\R a∈R ,使得
Γ a = E ( X Y ) = Σ X Y , \boldsymbol\Gamma\boldsymbol{a}={\rm E}(\boldsymbol{X}Y)=\boldsymbol\Sigma_{\boldsymbol{X}Y} \ , Γa=E(XY)=ΣXY ,
则有
L ( Y ∣ X ) = a T X , L(Y|\boldsymbol{X})=\boldsymbol{a}^{\rm T}\boldsymbol{X} \ , L(Y∣X)=aTX ,E ( Y − L ( Y ∣ X ) ) 2 = E Y 2 − E [ L ( Y ∣ X ) ] 2 = E Y 2 − a T Γ a . {\rm E}(Y-L(Y|\boldsymbol{X}))^2={\rm E}Y^2-{\rm E}[L(Y|\boldsymbol{X})]^2={\rm E}Y^2-\boldsymbol{a}^{\rm T}\boldsymbol\Gamma\boldsymbol{a} \ . E(Y−L(Y∣X))2=EY2−E[L(Y∣X)]2=EY2−aTΓa .
如果 Γ \boldsymbol\Gamma Γ 和 Σ X Y \boldsymbol\Sigma_{\boldsymbol{X}Y} ΣXY 已知,则以 a \boldsymbol{a} a 为未知数的方程 Γ a = Σ X Y \boldsymbol\Gamma\boldsymbol{a}=\boldsymbol\Sigma_{\boldsymbol{X}Y} Γa=ΣXY 称为预测方程 。
下面证明满足预测方程的 a \boldsymbol{a} a 确实是我们要找的“最好”的 a \boldsymbol{a} a ,即此时的 a T X \boldsymbol{a}^{\rm T}\boldsymbol{X} aTX 是最佳线性预测。
证明:对任何 b ∈ R n \boldsymbol{b}\in\R^n b∈Rn ,
E ( Y − b T X ) 2 = E [ Y − a T X + ( a T − b T ) X ] 2 = E ( Y − a T X ) 2 + E [ ( a T − b T ) X ] 2 + 2 E [ ( a T − b T ) X ( Y − a T X ) ] = E ( Y − a T X ) 2 + E [ ( a T − b T ) X ] 2 + 2 ( a T − b T ) [ E ( X Y ) − E ( X X T ) a ] \begin{aligned} {\rm E}\left(Y-\boldsymbol{b}^{\rm T}\boldsymbol{X}\right)^2 &={\rm E}\left[Y-\boldsymbol{a}^{\rm T}\boldsymbol{X}+\left(\boldsymbol{a}^{\rm T}-\boldsymbol{b}^{\rm T}\right)\boldsymbol{X}\right]^2 \\ &={\rm E}\left(Y-\boldsymbol{a}^{\rm T}\boldsymbol{X}\right)^2+{\rm E}\left[\left(\boldsymbol{a}^{\rm T}-\boldsymbol{b}^{\rm T}\right)\boldsymbol{X}\right]^2+2{\rm E}\left[\left(\boldsymbol{a}^{\rm T}-\boldsymbol{b}^{\rm T}\right)\boldsymbol{X}\left(Y-\boldsymbol{a}^{\rm T}\boldsymbol{X}\right)\right] \\ &={\rm E}\left(Y-\boldsymbol{a}^{\rm T}\boldsymbol{X}\right)^2+{\rm E}\left[\left(\boldsymbol{a}^{\rm T}-\boldsymbol{b}^{\rm T}\right)\boldsymbol{X}\right]^2+2\left(\boldsymbol{a}^{\rm T}-\boldsymbol{b}^{\rm T}\right)\left[{\rm E}(\boldsymbol{X}Y)-{\rm E}\left(\boldsymbol{X}\boldsymbol{X}^{\rm T}\right)\boldsymbol{a}\right] \\ \end{aligned} E(Y−bTX)2=E[Y−aTX+(aT−bT)X]2=E(Y−aTX)2+E[(aT−bT)X]2+2E[(aT−b