简单线性回归模型
研究经济变量之间相互数量关系最基本的方法之一是回归分析。在回归分析中,只有一个解释变量的线性回归模型是最简单的,称为简单线性回归模型或一元线性回归模型。本文主要从最简单的一元线性回归模型入手,讨论在基本假定满足的条件下,对经济变量关系进行计量的基本理论和方法。
第一节 回归分析与回归函数
一、相关分析与回归分析
(一)经济变量间的相互关系
在很多社会与经济现象中,除自身的变动外,它们相互之间很可能有一定的依存关系。各种经济变量相互之间的依存关系有两种不同的类型:一种是确定性的函数关系,另一种是不确定性的统计关系,也成为相关关系。
当一个或若干个变量X取一定数值时,某一个变量Y有确定的值与之对应,我们称变量间的这种关系为确定性的函数关系。一般情况下,确定性的函数关系可表示为Y=f(x)。
当一个或若干个变量X去一定数值时,与之相对应的另一个变量Y的值虽然不确定,但却按某种规律在一定范围内变化,我们称变量之间的这种关系为不确定性的统计关系或相关关系,一般可表示为Y=f(X,u),其中u为随机变量。例如居民可支配收入X,可能对应不同的消费Y,呈现出为不确定性的相关关系。
变量之间的相关关系可用坐标图(又称散点图)描述,变量之间的相关关系可以分为以下若干类型。
(1)从相关关系涉及的变量数量看。只有两个变量的相关关系称为简单相关关系。三个或三个以上变量的相关关系,称为多重相关或复相关。
(2)从变量相关关系的表现形式看。当变量之间相关关系的散点图的点接近一条直线时,称为线性相关;当变量之间相关关系散点图中的点接近于一条曲线时,称为非线性相关。
(3)从变量相关关系变化的方向看。两个变量趋于在同一方向变化时,即同增或同减,称为变量之间存在正相关。当两个变量趋于在相反方向变化时,即当一个变量增加时,另一个变量却减少,称为变量之间存在负相关。
(4)从变量相关的程度看。当一个变量的变化由另一个变量的变化确定时,称为变量之间完全相关。在这种情况下,相关关系实际成了函数关系,所以可以把函数关系视为相关关系的特例。
当两个变量的变化相互完全没有关系,即彼此互不影响,称为二者不相关。两个现象的关系如果介于完全相关和不相关之间时,称为不完全相关,我们研究的相关关系通常是指的这种不完全的相关关系。
(二)简单线性相关关系的度量
- 简单线性相关系数
在各种类型的相关分析中,只有两个变量的线性相关关系的分析是最简单的。两个变量之间线性相关程度可以用简单线性相关系数去度量,这种相关系数是最常用的,简称为相关系数。对于我们所研究的总体,两个相互联系的变量的相关系数称为总体相关系数,通常用p表示,总体相关系数p可用下式计算:
式中,Var(X)是变量X的方差;Var(Y)是变量Y的方差;Cov(X,Y)是变量X和Y的协方差。
总体相关系数p反映了总体两个变量X和Y的线性相关程度,对于特定总体来说,X和Y的数值是既定的,所以总体相关系数p是客观存在的特定数值。但对于总体较大时,X和Y的数值不可能去直接观测时,总体相关系数就不能直接计算。通常可能做到的是从总体中随机抽取一定数量的样本,通过X和Y的样本观测值去计算样本相关系数,变量X和Y的样本相关系数通常用rxy来表示,或简记为r,可用下式去估计:
式中,Xi和Yi分别是变量X和变量Y的样本观测值;n为样本的个数,也称样本容量。
样本相关系数r是根据总体中抽取的随机样本的观测值Xi和Yi计算出来的,它是对总体相关系数p的估计。可以证明,这样计算的样本相关系数是总体相关系数的一致估计。
多个变量之间的线性相关程度,则需要用复相关系数和偏相关系数去度量。
- 相关系数的特点
样本相关系数r的取值范围为-1到1(闭区间)。当r=0时,表示X和Y之间没有线性相关关系。当r的绝对值等于1时,表示X和Y之间完全线性相关。
使用相关系数分析相关关系时应当注意以下几点:
(1)rxy=ryx
(2)相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。
(3)相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。
(4)样本相关系数是根据从总体中抽取的随机样本的观测值Xi和Yi计算出来的,它只是对总体相关系数p的估计。因此样本相关系数不是确定的值,而是随抽样而变动的随机变量。对相关系数的统计显著性还有待进行检验。
(三)回归分析
研究变量相互之间的相关关系时,首先需要分析它们是否存在相关关系,然后要明确其相关关系的类型,而且还应计量其相关关系的密切程度,在统计学中这种研究称为相关关系。相关分析主要是用一个指标(相关系数)去表明现象间相互依存关系的性质和密切程度。不过相关分析并不能说明变量间相互关系的具体形式,也还不能从一个变量的变化去推测另一个变量的具体变化。如果要测定变量之间相关关系的数量形式,还需要运用回归分析的方法。
现代意义的回归是关于一个变量(被解释变量或因变量)对另一个或多个变量(解释变量)依存关系的研究,是用适当的数学模型去近似地表达或估计变量之间地平均变化关系,其目的是要根据解释变量的数值去估计所研究的被解释变量的总体平均值。
例如,研究个人消费支出Y与个人可支配收入X的依存关系,对应于一定的个人可支配收入水平,个人消费支出并不确定,但总是在一定的范围内变动。其关系如下图所示。
回归分析就是要研究当解释变量个人可支配收入变动时,被解释变量个人消费支出的平均水平变动的规律。
在理解回归分析时,应当注意回归所要揭示的是被解释变量与解释变量之间的平均关系。在这里,被解释变量是随机变量,解释变量在本