1. 基本概念
回归(Regression)是分析变量之间相互关系的一种方法。
“回归”一词最早是由英国科学家弗朗西斯·高尔顿(Francis Galton,1822-1911)提出的,高尔顿在实验中注意到,无论是豌豆种子的尺寸,还是人类的身高,都存在一种向均值进行回归的现象。后来,尽管回归这个词语本身和数值预测没有任何关系,但这种研究方法还是被称作回归。
回归研究的变量有两类:
- 自变量:通过大量试验或观测获得的数据,用 表示。
- 因变量:实际问题中所关心的结果指标,用 表示。
回归分析的过程:
(1)确定 与 间的定量关系表达式,即回归方程。
(2)对求得的回归方程的可信度进行检验。
(3)判断自变量 对 有无影响。
(4)利用所求得的回归方程进行预测。
2. 一元线性回归
一元线性回归只考虑一个因变量 与一个自变量 之间的关系。
2.1 数学模型
假设有一组数据 , 。
以 为横坐标, 为纵坐标,将数据对 在 坐标中画出散点图。
我们会发现,数据点在一条直线的附近,于是我们可以假设 与 是线性关系,这些点与直线的偏离由一些不确定因素造成。
即假设:
上式中, 表示 随 的变化而线性变化的部分; 是随机误差,是其他一切不确定因素影响的总和,其值不可观测,通常假定 。
- 称函数 为一元线性回归函数
- 称 为回归常数, 为回归系数,统称回归参数
- 称 为回归自变量(或回归因子)
- 称 为回归因变量(或响应变量)
若 是 的一组观测值,则一元线性回归模型可表示为:
,
其中 , , 。
2.2 回归参数的估计
求解思路:求出未知参数 的估计 的一种直观想法,是使得点 与直线上的点 的偏离越小越好。这里的 ,称为回归值或拟合值。
使用方法:最小二乘法。
令
函数用来描述真实值和预测值之间的差距。
- 通过使误差平方和达到最小的方式来寻求估计值的方法,叫做最小二乘法。
- 用最小二乘法得到的估计,叫做最小二乘估计。
是凸函数,令其求导并等于零可得极值。计算可得
,
其中
,
2.3 模型拟合优度
拟合优度检验是对回归模型拟合效果的检验。
回归平方和:
残差平方和:
总平方和:
可决系数:
可决系数是评价回归模型拟合程度的重要指标,它表示了模型的总离差中可解释部分所占的比例。可决系数介于0和1之间,值越高,模型拟合效果越好。一般认为超过0.8的模型拟合优度比较高。
3、线性相关系数
在回归参数的估计公式中,我们假设了 与 是存在线性相关的关系的,但如果不存在这种关系,那么求得的回归方程毫无意义。
线性相关系数是用于衡量两个随机变量之间线性相关程度的指标。
总体的线性相关系数:
样本的线性相关系数:
取值在-1到1之间。
时,称、不相关;
时,称、完全相关,此时,、之间具有线性关系;
时, 的变动引起 的部分变动。 的绝对值越大, 的变动引起 的变动就越大。一般情况下, 时称为高度线性相关。
注意:相关性不等同于因果性。
4、多元线性回归分析
4.1 数学模型
设变量 与变量 间有线性关系
其中, , 和 是未知参数,
称上述模型为多元线性回归模型。
设 , 是 的 次独立观测值。
则多元线性模型可表示为 , 。
其中 ,且独立同分布。
为书写方便,常采用矩阵形式,令
, , ,
则多元线性模型可表示为
其中 是由响应变量构成的 维向量, 是 阶设计矩阵, 是 维向量, 是 维向量,且满足 。
4.2 回归系数的估计
求参数 的估计值 ,就是求最小二乘函数 达到最小的 值。
计算可得:
4.3 模型拟合优度
一元线性回归模型的可决系数在计算时,自变量数目越多,残差平方和越小,拟合优度就会越高。这导致了:要想使得模型拟合得好,只要增加解释变量的数目即可。
这样做的结果会拓宽点估计或均值估计的置信区间,从而增大预测或估计的误差。
为此,应修正可决系数的算法,剔除解释变量数目变动对 的影响。
修正可决系数算法的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。
因此,多元线性回归模型在衡量模型的拟合优度时,采用修正的可决系数进行评判:
其中, 为自变量个数, 为样本数据的个数。
, ,
越高,模型拟合效果越好。